- Deskripsi :
Identifikasi bakteri berdasarkan urutan genom menjanjikan deteksi dini penyakit, tetapi membutuhkan model yang dapat menghasilkan prediksi kepercayaan rendah pada urutan genom out-of-distribution (OOD) dari bakteri baru yang tidak ada dalam data pelatihan.
Kami memperkenalkan kumpulan data genomik untuk deteksi OOD yang memungkinkan peneliti lain untuk mengukur kemajuan dalam masalah penting ini. Kelas bakteri baru secara bertahap ditemukan selama bertahun-tahun. Mengelompokkan kelas berdasarkan tahun adalah cara alami untuk meniru contoh dalam distribusi dan OOD.
Dataset berisi sekuens genom yang diambil sampelnya dari 10 kelas bakteri yang ditemukan sebelum tahun 2011 sebagai kelas distribusi, 60 kelas bakteri yang ditemukan antara 2011-2016 sebagai OOD untuk validasi, dan 60 kelas bakteri berbeda lainnya yang ditemukan setelah 2016 sebagai OOD untuk pengujian. total 130 kelas bakteri. Perhatikan bahwa data pelatihan, validasi, dan pengujian disediakan untuk kelas dalam distribusi, dan data validasi dan pengujian disediakan untuk kelas OOD. Sesuai sifatnya, data OOD tidak tersedia pada waktu pelatihan.
Urutan genom panjangnya 250, disusun oleh karakter {A, C, G, T}. Ukuran sampel setiap kelas adalah 100.000 untuk pelatihan dan 10.000 untuk set validasi dan tes.
Untuk setiap contoh, fitur-fiturnya antara lain: seq: sekuen DNA masukan yang disusun oleh {A, C, G, T}. label: nama kelas bakteri. seq_info: sumber urutan DNA, yaitu, nama genom, nomor aksesi NCBI, dan posisi pengambilan sampel. domain: jika bakteri dalam distribusi (dalam), atau OOD (ood)
Rincian dataset dapat ditemukan di kertas pelengkap.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://github.com/google-research/google-research/tree/master/genomics_ood
Kode sumber :
tfds.structured.GenomicsOod
Versi :
-
0.0.1
(default): Tidak ada catatan rilis.
-
Ukuran unduhan :
Unknown size
Ukuran dataset :
926.87 MiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 100.000 |
'test_ood' | 600.000 |
'train' | 1.000.000 |
'validation' | 100.000 |
'validation_ood' | 600.000 |
- Struktur fitur :
FeaturesDict({
'domain': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
'seq': Text(shape=(), dtype=string),
'seq_info': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
domain | Teks | rangkaian | ||
label | LabelKelas | int64 | ||
urutan | Teks | rangkaian | ||
seq_info | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):('seq', 'label')
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):
- Kutipan :
@inproceedings{ren2019likelihood,
title={Likelihood ratios for out-of-distribution detection},
author={Ren, Jie and
Liu, Peter J and
Fertig, Emily and
Snoek, Jasper and
Poplin, Ryan and
Depristo, Mark and
Dillon, Joshua and
Lakshminarayanan, Balaji},
booktitle={Advances in Neural Information Processing Systems},
pages={14707--14718},
year={2019}
}