ゲノミクス_ood

説明:

ゲノムシーケンスに基づく細菌の識別は、病気の早期発見の約束を保持していますが、トレーニングデータに存在しなかった新しい細菌から分布外 (OOD) ゲノムシーケンスの信頼性の低い予測を出力できるモデルが必要です。

OOD 検出のためのゲノミクスデータセットを紹介します。これにより、他の研究者はこの重要な問題の進捗状況をベンチマークできます。新しい細菌クラスは、何年にもわたって徐々に発見されています。年ごとにクラスをグループ化することは、分布内および OOD の例を模倣する自然な方法です。

このデータセットには、2011 年以前に分布内クラスとして発見された 10 の細菌クラス、検証用の OOD として 2011 年から 2016 年の間に発見された 60 の細菌クラス、およびテスト用の OOD として 2016 年以降に発見された別の 60 の異なる細菌クラスからサンプリングされたゲノム配列が含まれています。合計で 130 の細菌クラス。配布クラスにはトレーニング、検証、およびテストデータが提供され、OOD クラスには検証およびテストデータが提供されることに注意してください。その性質上、OOD データはトレーニング時に利用できません。

ゲノム配列は 250 の長さで、{A、C、G、T} の文字で構成されています。各クラスのサンプルサイズは、トレーニングでは 100,000、検証セットとテストセットでは 10,000 です。

各例の特徴は次のとおりです。 seq: {A、C、G、T} で構成される入力 DNA シーケンス。 label: 細菌クラスの名前。 seq_info: DNA 配列のソース、つまり、ゲノム名、NCBI アクセッション番号、およびサンプリング元の位置。ドメイン: バクテリアが分布内 (in) または OOD (ood) の場合

データセットの詳細は、論文の補足に記載されています。

追加のドキュメント:コードを使用したペーパーの探索
ホームページ: https://github.com/google-research/google-research/tree/master/genomics_ood
ソースコード: tfds.structured.GenomicsOod
バージョン:
- 0.0.1 (デフォルト): リリースノートはありません。
ダウンロードサイズ: サイズUnknown size
データセットサイズ: 926.87 MiB
自動キャッシュ(ドキュメント): いいえ
スプリット:

スプリット	例
`'test'`	100,000
`'test_ood'`	600,000
`'train'`	1,000,000
`'validation'`	100,000
`'validation_ood'`	600,000

機能構造:

FeaturesDict({
    'domain': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
    'seq': Text(shape=(), dtype=string),
    'seq_info': Text(shape=(), dtype=string),
})

機能のドキュメント:

特徴	クラス	Dtype
	特徴辞書
ドメイン	文章	ストリング
ラベル	クラスラベル	int64
シーケンス	文章	ストリング
seq_info	文章	ストリング

監視されたキー( as_supervised docを参照): ('seq', 'label')
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):

引用：

@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}

ゲノミクス_ood コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

ゲノミクス_ood