genomics_ood

  • Keterangan:

Identifikasi bakteri berdasarkan urutan genom menjanjikan deteksi dini penyakit, tetapi membutuhkan model yang dapat menghasilkan prediksi kepercayaan rendah pada urutan genom di luar distribusi (OOD) dari bakteri baru yang tidak ada dalam data pelatihan.

Kami memperkenalkan kumpulan data genomik untuk deteksi OOD yang memungkinkan peneliti lain untuk membandingkan kemajuan pada masalah penting ini. Kelas bakteri baru secara bertahap ditemukan selama bertahun-tahun. Mengelompokkan kelas berdasarkan tahun adalah cara alami untuk meniru contoh dalam distribusi dan OOD.

Dataset berisi urutan genom yang diambil dari 10 kelas bakteri yang ditemukan sebelum tahun 2011 sebagai kelas distribusi, 60 kelas bakteri yang ditemukan antara 2011-2016 sebagai OOD untuk validasi, dan 60 kelas bakteri berbeda yang ditemukan setelah 2016 sebagai OOD untuk pengujian, total 130 kelas bakteri. Perhatikan bahwa data pelatihan, validasi, dan pengujian disediakan untuk kelas dalam distribusi, dan data validasi dan pengujian disediakan untuk kelas OOD. Berdasarkan sifatnya, data OOD tidak tersedia pada waktu pelatihan.

Urutan genom adalah 250 panjang, disusun oleh karakter {A, C, G, T}. Ukuran sampel setiap kelas adalah 100.000 dalam pelatihan dan 10.000 untuk set validasi dan pengujian.

Untuk setiap contoh, fiturnya meliputi: seq: urutan DNA input yang disusun oleh {A, C, G, T}. label: nama kelas bakteri. seq_info: sumber sekuens DNA, yaitu nama genom, nomor aksesi NCBI, dan posisi asal sampel. domain: jika bakteri dalam distribusi (dalam), atau OOD (ood)

Rincian dataset dapat ditemukan di kertas tambahan.

Membelah Contoh
'test' 100.000
'test_ood' 600.000
'train' 1.000.000
'validation' 100.000
'validation_ood' 600.000
  • fitur:
FeaturesDict({
    'domain': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=130),
    'seq': Text(shape=(), dtype=tf.string),
    'seq_info': Text(shape=(), dtype=tf.string),
})
  • Citation:
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}