genomics_ood

  • Deskripsi :

Identifikasi bakteri berdasarkan urutan genom menjanjikan deteksi dini penyakit, tetapi membutuhkan model yang dapat menghasilkan prediksi kepercayaan rendah pada urutan genom out-of-distribution (OOD) dari bakteri baru yang tidak ada dalam data pelatihan.

Kami memperkenalkan kumpulan data genomik untuk deteksi OOD yang memungkinkan peneliti lain untuk mengukur kemajuan dalam masalah penting ini. Kelas bakteri baru secara bertahap ditemukan selama bertahun-tahun. Mengelompokkan kelas berdasarkan tahun adalah cara alami untuk meniru contoh dalam distribusi dan OOD.

Dataset berisi sekuens genom yang diambil sampelnya dari 10 kelas bakteri yang ditemukan sebelum tahun 2011 sebagai kelas distribusi, 60 kelas bakteri yang ditemukan antara 2011-2016 sebagai OOD untuk validasi, dan 60 kelas bakteri berbeda lainnya yang ditemukan setelah 2016 sebagai OOD untuk pengujian. total 130 kelas bakteri. Perhatikan bahwa data pelatihan, validasi, dan pengujian disediakan untuk kelas dalam distribusi, dan data validasi dan pengujian disediakan untuk kelas OOD. Sesuai sifatnya, data OOD tidak tersedia pada waktu pelatihan.

Urutan genom panjangnya 250, disusun oleh karakter {A, C, G, T}. Ukuran sampel setiap kelas adalah 100.000 untuk pelatihan dan 10.000 untuk set validasi dan tes.

Untuk setiap contoh, fitur-fiturnya antara lain: seq: sekuen DNA masukan yang disusun oleh {A, C, G, T}. label: nama kelas bakteri. seq_info: sumber urutan DNA, yaitu, nama genom, nomor aksesi NCBI, dan posisi pengambilan sampel. domain: jika bakteri dalam distribusi (dalam), atau OOD (ood)

Rincian dataset dapat ditemukan di kertas pelengkap.

Membelah Contoh
'test' 100.000
'test_ood' 600.000
'train' 1.000.000
'validation' 100.000
'validation_ood' 600.000
  • Struktur fitur :
FeaturesDict({
    'domain': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
    'seq': Text(shape=(), dtype=string),
    'seq_info': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
domain Teks rangkaian
label LabelKelas int64
urutan Teks rangkaian
seq_info Teks rangkaian
  • Kutipan :
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}