genomik_ood

  • Açıklama :

Genomik dizilere dayalı bakteri tanımlaması, hastalıkların erken saptanması vaadini yerine getirir, ancak eğitim verilerinde bulunmayan yeni bakterilerden dağıtım dışı (OOD) genomik diziler hakkında düşük güvenilirlikli tahminler çıkarabilen bir model gerektirir.

OOD tespiti için, diğer araştırmacıların bu önemli sorundaki ilerlemeyi karşılaştırmasına olanak tanıyan bir genomik veri seti sunuyoruz. Yıllar içinde yavaş yavaş yeni bakteri sınıfları keşfedilir. Sınıfları yıllara göre gruplamak, dağıtım içi ve OOD örneklerini taklit etmenin doğal bir yoludur.

Veri seti, dağıtım içi sınıflar olarak 2011 yılından önce keşfedilen 10 bakteri sınıfından, 2011-2016 yılları arasında doğrulama için OOD olarak keşfedilen 60 bakteri sınıfından ve test için 2016'dan sonra OOD olarak keşfedilen 60 farklı bakteri sınıfından örneklenen genomik dizileri içerir. toplam 130 bakteri sınıfı. Eğitim, doğrulama ve test verilerinin dağıtım içi sınıflar için sağlandığını ve doğrulama ve test verilerinin OOD sınıfları için sağlandığını unutmayın. Doğası gereği, OOD verileri eğitim sırasında mevcut değildir.

{A, C, G, T} karakterlerinden oluşan genomik dizi 250 uzunluğundadır. Her sınıfın örneklem büyüklüğü eğitimde 100.000, doğrulama ve test setlerinde 10.000'dir.

Her örnek için özellikler şunları içerir: sıra: {A, C, G, T} tarafından oluşturulan giriş DNA dizisi. etiket: bakteri sınıfının adı. seq_info: DNA dizisinin kaynağı, yani genom adı, NCBI erişim numarası ve örneklendiği konum. alan: bakteri dağıtımda (in) veya OOD (ood) ise

Veri kümesinin ayrıntıları makale ekinde bulunabilir.

Bölmek örnekler
'test' 100.000
'test_ood' 600.000
'train' 1.000.000
'validation' 100.000
'validation_ood' 600.000
  • Özellik yapısı :
FeaturesDict({
    'domain': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
    'seq': Text(shape=(), dtype=string),
    'seq_info': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
alan adı Metin sicim
etiket SınıfEtiketi int64
sıra Metin sicim
sıra_bilgisi Metin sicim
  • Alıntı :
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}