- Описание:
Идентификация бактерий на основе геномных последовательностей обещает раннее обнаружение заболеваний, но требует модели, которая может выдавать низко достоверные прогнозы геномных последовательностей вне распределения (OOD) новых бактерий, которые не присутствовали в обучающих данных.
Мы представляем набор данных геномики для обнаружения OOD, который позволяет другим исследователям оценивать прогресс в решении этой важной проблемы. С годами постепенно открываются новые классы бактерий. Группировка классов по годам - это естественный способ имитировать распространяемые примеры и примеры OOD.
Набор данных содержит геномные последовательности, взятые из 10 классов бактерий, которые были обнаружены до 2011 года в качестве классов распределения, 60 классов бактерий, обнаруженных в период с 2011 по 2016 год как OOD для проверки, и еще 60 различных классов бактерий, обнаруженных после 2016 года как OOD для тестирования, всего 130 классов бактерий. Обратите внимание, что данные обучения, проверки и тестирования предоставляются для классов в распределении, а данные проверки и тестирования предоставляются для классов OOD. По своей природе данные OOD недоступны во время обучения.
Геномная последовательность имеет длину 250 и состоит из символов {A, C, G, T}. Размер выборки каждого класса составляет 100 000 для обучения и 10 000 для наборов для проверки и тестирования.
Для каждого примера функции включают: seq: входная последовательность ДНК, состоящая из {A, C, G, T}. label: название класса бактерий. seq_info: источник последовательности ДНК, то есть имя генома, регистрационный номер NCBI и позиция, из которой был взят образец. домен: если бактерии нераспространены (нет), или нет (нет)
Подробную информацию о наборе данных можно найти в дополнительном документе.
Домашняя страница: https://github.com/google-research/google-research/tree/master/genomics_ood
Исходный код:
tfds.structured.GenomicsOod
Версии:
-
0.0.1
( по умолчанию): Нет Замечания к выпуску.
-
Размер загрузки:
Unknown size
Dataset Размер:
926.87 MiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'test' | 100 000 |
'test_ood' | 600 000 |
'train' | 1,000,000 |
'validation' | 100 000 |
'validation_ood' | 600 000 |
- Особенности:
FeaturesDict({
'domain': Text(shape=(), dtype=tf.string),
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=130),
'seq': Text(shape=(), dtype=tf.string),
'seq_info': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (см
as_supervised
документ ):('seq', 'label')
Рис ( tfds.show_examples ): Не поддерживается.
Примеры ( tfds.as_dataframe ):
- Образец цитирования:
@inproceedings{ren2019likelihood,
title={Likelihood ratios for out-of-distribution detection},
author={Ren, Jie and
Liu, Peter J and
Fertig, Emily and
Snoek, Jasper and
Poplin, Ryan and
Depristo, Mark and
Dillon, Joshua and
Lakshminarayanan, Balaji},
booktitle={Advances in Neural Information Processing Systems},
pages={14707--14718},
year={2019}
}