genomik_ood

  • Açıklama:

Genomik sekanslara dayalı bakteri tanımlaması, hastalıkların erken tespiti vaadini taşır, ancak eğitim verilerinde mevcut olmayan yeni bakterilerden dağıtım dışı (OOD) genomik sekanslar hakkında düşük güvenilir tahminler üretebilen bir model gerektirir.

OOD tespiti için diğer araştırmacıların bu önemli problemdeki ilerlemeyi kıyaslamasına olanak tanıyan bir genomik veri seti sunuyoruz. Yıllar içinde yavaş yavaş yeni bakteri sınıfları keşfedilir. Sınıfları yıllara göre gruplandırmak, dağıtımdaki ve OOD örneklerini taklit etmenin doğal bir yoludur.

Veri seti, 2011 yılından önce dağıtım sınıfları olarak keşfedilen 10 bakteri sınıfından, 2011-2016 yılları arasında doğrulama için OOD olarak keşfedilen 60 bakteri sınıfından ve 2016'dan sonra test için OOD olarak keşfedilen 60 farklı bakteri sınıfından örneklenen genomik dizileri içerir. toplam 130 bakteri sınıfı. Dağıtım sınıfları için eğitim, doğrulama ve test verilerinin sağlandığını ve OOD sınıfları için doğrulama ve test verilerinin sağlandığını unutmayın. Doğası gereği, OOD verileri eğitim zamanında mevcut değildir.

Genomik dizi, {A, C, G, T} karakterlerinden oluşan 250 uzunluğundadır. Her sınıfın örneklem büyüklüğü eğitimde 100.000, doğrulama ve test setlerinde 10.000'dir.

Her örnek için özellikler şunları içerir: seq: {A, C, G, T} tarafından oluşturulan girdi DNA dizisi. etiket: bakteri sınıfının adı. seq_info: DNA dizisinin kaynağı, yani genom adı, NCBI erişim numarası ve numunenin alındığı konum. etki alanı: bakteri dağılımda (in) veya OOD (ood) ise

Veri setinin detayları ekteki kağıtta bulunabilir.

Bölmek Örnekler
'test' 100.000
'test_ood' 600.000
'train' 1.000.000
'validation' 100.000
'validation_ood' 600.000
  • Özellikler:
FeaturesDict({
    'domain': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=130),
    'seq': Text(shape=(), dtype=tf.string),
    'seq_info': Text(shape=(), dtype=tf.string),
})
  • Citation:
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}