- Açıklama :
Genomik dizilere dayalı bakteri tanımlaması, hastalıkların erken saptanması vaadini yerine getirir, ancak eğitim verilerinde bulunmayan yeni bakterilerden dağıtım dışı (OOD) genomik diziler hakkında düşük güvenilirlikli tahminler çıkarabilen bir model gerektirir.
OOD tespiti için, diğer araştırmacıların bu önemli sorundaki ilerlemeyi karşılaştırmasına olanak tanıyan bir genomik veri seti sunuyoruz. Yıllar içinde yavaş yavaş yeni bakteri sınıfları keşfedilir. Sınıfları yıllara göre gruplamak, dağıtım içi ve OOD örneklerini taklit etmenin doğal bir yoludur.
Veri seti, dağıtım içi sınıflar olarak 2011 yılından önce keşfedilen 10 bakteri sınıfından, 2011-2016 yılları arasında doğrulama için OOD olarak keşfedilen 60 bakteri sınıfından ve test için 2016'dan sonra OOD olarak keşfedilen 60 farklı bakteri sınıfından örneklenen genomik dizileri içerir. toplam 130 bakteri sınıfı. Eğitim, doğrulama ve test verilerinin dağıtım içi sınıflar için sağlandığını ve doğrulama ve test verilerinin OOD sınıfları için sağlandığını unutmayın. Doğası gereği, OOD verileri eğitim sırasında mevcut değildir.
{A, C, G, T} karakterlerinden oluşan genomik dizi 250 uzunluğundadır. Her sınıfın örneklem büyüklüğü eğitimde 100.000, doğrulama ve test setlerinde 10.000'dir.
Her örnek için özellikler şunları içerir: sıra: {A, C, G, T} tarafından oluşturulan giriş DNA dizisi. etiket: bakteri sınıfının adı. seq_info: DNA dizisinin kaynağı, yani genom adı, NCBI erişim numarası ve örneklendiği konum. alan: bakteri dağıtımda (in) veya OOD (ood) ise
Veri kümesinin ayrıntıları makale ekinde bulunabilir.
Ana sayfa : https://github.com/google-research/google-research/tree/master/genomics_ood
Kaynak kodu :
tfds.structured.GenomicsOod
sürümler :
-
0.0.1
(varsayılan): Sürüm notu yok.
-
İndirme boyutu :
Unknown size
Veri kümesi boyutu :
926.87 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 100.000 |
'test_ood' | 600.000 |
'train' | 1.000.000 |
'validation' | 100.000 |
'validation_ood' | 600.000 |
- Özellik yapısı :
FeaturesDict({
'domain': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
'seq': Text(shape=(), dtype=string),
'seq_info': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
alan adı | Metin | sicim | ||
etiket | SınıfEtiketi | int64 | ||
sıra | Metin | sicim | ||
sıra_bilgisi | Metin | sicim |
Denetlenen anahtarlar (Bkz
as_supervised
doc ):('seq', 'label')
Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ):
- Alıntı :
@inproceedings{ren2019likelihood,
title={Likelihood ratios for out-of-distribution detection},
author={Ren, Jie and
Liu, Peter J and
Fertig, Emily and
Snoek, Jasper and
Poplin, Ryan and
Depristo, Mark and
Dillon, Joshua and
Lakshminarayanan, Balaji},
booktitle={Advances in Neural Information Processing Systems},
pages={14707--14718},
year={2019}
}