genomics_ood

Deskripsi :

Identifikasi bakteri berdasarkan urutan genom menjanjikan deteksi dini penyakit, tetapi membutuhkan model yang dapat menghasilkan prediksi kepercayaan rendah pada urutan genom out-of-distribution (OOD) dari bakteri baru yang tidak ada dalam data pelatihan.

Kami memperkenalkan kumpulan data genomik untuk deteksi OOD yang memungkinkan peneliti lain untuk mengukur kemajuan dalam masalah penting ini. Kelas bakteri baru secara bertahap ditemukan selama bertahun-tahun. Mengelompokkan kelas berdasarkan tahun adalah cara alami untuk meniru contoh dalam distribusi dan OOD.

Dataset berisi sekuens genom yang diambil sampelnya dari 10 kelas bakteri yang ditemukan sebelum tahun 2011 sebagai kelas distribusi, 60 kelas bakteri yang ditemukan antara 2011-2016 sebagai OOD untuk validasi, dan 60 kelas bakteri berbeda lainnya yang ditemukan setelah 2016 sebagai OOD untuk pengujian. total 130 kelas bakteri. Perhatikan bahwa data pelatihan, validasi, dan pengujian disediakan untuk kelas dalam distribusi, dan data validasi dan pengujian disediakan untuk kelas OOD. Sesuai sifatnya, data OOD tidak tersedia pada waktu pelatihan.

Urutan genom panjangnya 250, disusun oleh karakter {A, C, G, T}. Ukuran sampel setiap kelas adalah 100.000 untuk pelatihan dan 10.000 untuk set validasi dan tes.

Untuk setiap contoh, fitur-fiturnya antara lain: seq: sekuen DNA masukan yang disusun oleh {A, C, G, T}. label: nama kelas bakteri. seq_info: sumber urutan DNA, yaitu, nama genom, nomor aksesi NCBI, dan posisi pengambilan sampel. domain: jika bakteri dalam distribusi (dalam), atau OOD (ood)

Rincian dataset dapat ditemukan di kertas pelengkap.

Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://github.com/google-research/google-research/tree/master/genomics_ood
Kode sumber : tfds.structured.GenomicsOod
Versi :
- 0.0.1 (default): Tidak ada catatan rilis.
Ukuran unduhan : Unknown size
Ukuran dataset : 926.87 MiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'test'`	100.000
`'test_ood'`	600.000
`'train'`	1.000.000
`'validation'`	100.000
`'validation_ood'`	600.000

Struktur fitur :

FeaturesDict({
    'domain': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
    'seq': Text(shape=(), dtype=string),
    'seq_info': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
domain	Teks	rangkaian
label	LabelKelas	int64
urutan	Teks	rangkaian
seq_info	Teks	rangkaian

Kunci yang diawasi (Lihat as_supervised doc ): ('seq', 'label')
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):

Kutipan :

@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}

genomics_ood Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

genomics_ood