ゲノミクス_ood
コレクションでコンテンツを整理
必要に応じて、コンテンツの保存と分類を行います。
ゲノム シーケンスに基づく細菌の識別は、病気の早期発見の約束を保持していますが、トレーニング データに存在しなかった新しい細菌から分布外 (OOD) ゲノム シーケンスの信頼性の低い予測を出力できるモデルが必要です。
OOD 検出のためのゲノミクス データセットを紹介します。これにより、他の研究者はこの重要な問題の進捗状況をベンチマークできます。新しい細菌クラスは、何年にもわたって徐々に発見されています。年ごとにクラスをグループ化することは、分布内および OOD の例を模倣する自然な方法です。
このデータセットには、2011 年以前に分布内クラスとして発見された 10 の細菌クラス、検証用の OOD として 2011 年から 2016 年の間に発見された 60 の細菌クラス、およびテスト用の OOD として 2016 年以降に発見された別の 60 の異なる細菌クラスからサンプリングされたゲノム配列が含まれています。合計で 130 の細菌クラス。配布クラスにはトレーニング、検証、およびテスト データが提供され、OOD クラスには検証およびテスト データが提供されることに注意してください。その性質上、OOD データはトレーニング時に利用できません。
ゲノム配列は 250 の長さで、{A、C、G、T} の文字で構成されています。各クラスのサンプル サイズは、トレーニングでは 100,000、検証セットとテスト セットでは 10,000 です。
各例の特徴は次のとおりです。 seq: {A、C、G、T} で構成される入力 DNA シーケンス。 label: 細菌クラスの名前。 seq_info: DNA 配列のソース、つまり、ゲノム名、NCBI アクセッション番号、およびサンプリング元の位置。ドメイン: バクテリアが分布内 (in) または OOD (ood) の場合
データセットの詳細は、論文の補足に記載されています。
スプリット | 例 |
---|
'test' | 100,000 |
'test_ood' | 600,000 |
'train' | 1,000,000 |
'validation' | 100,000 |
'validation_ood' | 600,000 |
FeaturesDict({
'domain': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
'seq': Text(shape=(), dtype=string),
'seq_info': Text(shape=(), dtype=string),
})
特徴 | クラス | 形 | Dtype | 説明 |
---|
| 特徴辞書 | | | |
ドメイン | 文章 | | ストリング | |
ラベル | クラスラベル | | int64 | |
シーケンス | 文章 | | ストリング | |
seq_info | 文章 | | ストリング | |
@inproceedings{ren2019likelihood,
title={Likelihood ratios for out-of-distribution detection},
author={Ren, Jie and
Liu, Peter J and
Fertig, Emily and
Snoek, Jasper and
Poplin, Ryan and
Depristo, Mark and
Dillon, Joshua and
Lakshminarayanan, Balaji},
booktitle={Advances in Neural Information Processing Systems},
pages={14707--14718},
year={2019}
}
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2022-12-06 UTC。
[null,null,["最終更新日 2022-12-06 UTC。"],[],[],null,["# genomics_ood\n\n\u003cbr /\u003e\n\n- **Description**:\n\nBacteria identification based on genomic sequences holds the promise of early\ndetection of diseases, but requires a model that can output low confidence\npredictions on out-of-distribution (OOD) genomic sequences from new bacteria\nthat were not present in the training data.\n\nWe introduce a genomics dataset for OOD detection that allows other researchers\nto benchmark progress on this important problem. New bacterial classes are\ngradually discovered over the years. Grouping classes by years is a natural way\nto mimic the in-distribution and OOD examples.\n\nThe dataset contains genomic sequences sampled from 10 bacteria classes that\nwere discovered before the year 2011 as in-distribution classes, 60 bacteria\nclasses discovered between 2011-2016 as OOD for validation, and another 60\ndifferent bacteria classes discovered after 2016 as OOD for test, in total 130\nbacteria classes. Note that training, validation, and test data are provided for\nthe in-distribution classes, and validation and test data are proviede for OOD\nclasses. By its nature, OOD data is not available at the training time.\n\nThe genomic sequence is 250 long, composed by characters of {A, C, G, T}. The\nsample size of each class is 100,000 in the training and 10,000 for the\nvalidation and test sets.\n\nFor each example, the features include: seq: the input DNA sequence composed by\n{A, C, G, T}. label: the name of the bacteria class. seq_info: the source of the\nDNA sequence, i.e., the genome name, NCBI accession number, and the position\nwhere it was sampled from. domain: if the bacteria is in-distribution (in), or\nOOD (ood)\n\nThe details of the dataset can be found in the paper supplemental.\n\n- **Additional Documentation** :\n [Explore on Papers With Code\n north_east](https://paperswithcode.com/dataset/real-bacteria-dataset)\n\n- **Homepage** :\n \u003chttps://github.com/google-research/google-research/tree/master/genomics_ood\u003e\n\n- **Source code** :\n [`tfds.structured.GenomicsOod`](https://github.com/tensorflow/datasets/tree/master/tensorflow_datasets/structured/genomics_ood.py)\n\n- **Versions**:\n\n - **`0.0.1`** (default): No release notes.\n- **Download size** : `Unknown size`\n\n- **Dataset size** : `926.87 MiB`\n\n- **Auto-cached**\n ([documentation](https://www.tensorflow.org/datasets/performances#auto-caching)):\n No\n\n- **Splits**:\n\n| Split | Examples |\n|--------------------|-----------|\n| `'test'` | 100,000 |\n| `'test_ood'` | 600,000 |\n| `'train'` | 1,000,000 |\n| `'validation'` | 100,000 |\n| `'validation_ood'` | 600,000 |\n\n- **Feature structure**:\n\n FeaturesDict({\n 'domain': Text(shape=(), dtype=string),\n 'label': ClassLabel(shape=(), dtype=int64, num_classes=130),\n 'seq': Text(shape=(), dtype=string),\n 'seq_info': Text(shape=(), dtype=string),\n })\n\n- **Feature documentation**:\n\n| Feature | Class | Shape | Dtype | Description |\n|----------|--------------|-------|--------|-------------|\n| | FeaturesDict | | | |\n| domain | Text | | string | |\n| label | ClassLabel | | int64 | |\n| seq | Text | | string | |\n| seq_info | Text | | string | |\n\n- **Supervised keys** (See\n [`as_supervised` doc](https://www.tensorflow.org/datasets/api_docs/python/tfds/load#args)):\n `('seq', 'label')`\n\n- **Figure**\n ([tfds.show_examples](https://www.tensorflow.org/datasets/api_docs/python/tfds/visualization/show_examples)):\n Not supported.\n\n- **Examples**\n ([tfds.as_dataframe](https://www.tensorflow.org/datasets/api_docs/python/tfds/as_dataframe)):\n\nDisplay examples... \n\n- **Citation**:\n\n @inproceedings{ren2019likelihood,\n title={Likelihood ratios for out-of-distribution detection},\n author={Ren, Jie and\n Liu, Peter J and\n Fertig, Emily and\n Snoek, Jasper and\n Poplin, Ryan and\n Depristo, Mark and\n Dillon, Joshua and\n Lakshminarayanan, Balaji},\n booktitle={Advances in Neural Information Processing Systems},\n pages={14707--14718},\n year={2019}\n }"]]