- Açıklama:
Genomik sekanslara dayalı bakteri tanımlaması, hastalıkların erken tespiti vaadini taşır, ancak eğitim verilerinde mevcut olmayan yeni bakterilerden dağıtım dışı (OOD) genomik sekanslar hakkında düşük güvenilir tahminler üretebilen bir model gerektirir.
OOD tespiti için diğer araştırmacıların bu önemli problemdeki ilerlemeyi kıyaslamasına olanak tanıyan bir genomik veri seti sunuyoruz. Yıllar içinde yavaş yavaş yeni bakteri sınıfları keşfedilir. Sınıfları yıllara göre gruplandırmak, dağıtımdaki ve OOD örneklerini taklit etmenin doğal bir yoludur.
Veri seti, 2011 yılından önce dağıtım sınıfları olarak keşfedilen 10 bakteri sınıfından, 2011-2016 yılları arasında doğrulama için OOD olarak keşfedilen 60 bakteri sınıfından ve 2016'dan sonra test için OOD olarak keşfedilen 60 farklı bakteri sınıfından örneklenen genomik dizileri içerir. toplam 130 bakteri sınıfı. Dağıtım sınıfları için eğitim, doğrulama ve test verilerinin sağlandığını ve OOD sınıfları için doğrulama ve test verilerinin sağlandığını unutmayın. Doğası gereği, OOD verileri eğitim zamanında mevcut değildir.
Genomik dizi, {A, C, G, T} karakterlerinden oluşan 250 uzunluğundadır. Her sınıfın örneklem büyüklüğü eğitimde 100.000, doğrulama ve test setlerinde 10.000'dir.
Her örnek için özellikler şunları içerir: seq: {A, C, G, T} tarafından oluşturulan girdi DNA dizisi. etiket: bakteri sınıfının adı. seq_info: DNA dizisinin kaynağı, yani genom adı, NCBI erişim numarası ve numunenin alındığı konum. etki alanı: bakteri dağılımda (in) veya OOD (ood) ise
Veri setinin detayları ekteki kağıtta bulunabilir.
Anasayfa: https://github.com/google-research/google-research/tree/master/genomics_ood
Kaynak kodu:
tfds.structured.GenomicsOod
sürümleri:
-
0.0.1
(varsayılan): Hayır sürüm notları.
-
İndirme boyutu:
Unknown size
Veri kümesi boyutu:
926.87 MiB
Otomatik önbelleğe ( dokümantasyon ): Hayır
Splits:
Bölmek | Örnekler |
---|---|
'test' | 100.000 |
'test_ood' | 600.000 |
'train' | 1.000.000 |
'validation' | 100.000 |
'validation_ood' | 600.000 |
- Özellikler:
FeaturesDict({
'domain': Text(shape=(), dtype=tf.string),
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=130),
'seq': Text(shape=(), dtype=tf.string),
'seq_info': Text(shape=(), dtype=tf.string),
})
Denetimli tuşları (Bkz
as_supervised
doc ):('seq', 'label')
Şekil ( tfds.show_examples ): desteklenmez.
Örnekler ( tfds.as_dataframe ):
- Citation:
@inproceedings{ren2019likelihood,
title={Likelihood ratios for out-of-distribution detection},
author={Ren, Jie and
Liu, Peter J and
Fertig, Emily and
Snoek, Jasper and
Poplin, Ryan and
Depristo, Mark and
Dillon, Joshua and
Lakshminarayanan, Balaji},
booktitle={Advances in Neural Information Processing Systems},
pages={14707--14718},
year={2019}
}