- รายละเอียด:
การระบุแบคทีเรียโดยพิจารณาจากลำดับจีโนมถือเป็นคำมั่นสัญญาในการตรวจหาโรคตั้งแต่เนิ่นๆ แต่ต้องใช้แบบจำลองที่สามารถแสดงการคาดการณ์ที่มีความเชื่อมั่นต่ำในลำดับจีโนมที่ไม่อยู่ในการกระจาย (OOD) จากแบคทีเรียชนิดใหม่ที่ไม่มีอยู่ในข้อมูลการฝึกอบรม
เราแนะนำชุดข้อมูลจีโนมสำหรับการตรวจจับ OOD ที่ช่วยให้นักวิจัยคนอื่นๆ สามารถเปรียบเทียบความคืบหน้าของปัญหาที่สำคัญนี้ได้ คลาสแบคทีเรียใหม่จะค่อยๆ ค้นพบในช่วงหลายปีที่ผ่านมา การจัดกลุ่มชั้นเรียนตามปีเป็นวิธีธรรมชาติในการเลียนแบบตัวอย่างในการกระจายและ OOD
ชุดข้อมูลประกอบด้วยลำดับจีโนมที่สุ่มตัวอย่างจาก 10 คลาสแบคทีเรียที่ค้นพบก่อนปี 2554 เป็นคลาสในการกระจาย แบคทีเรีย 60 คลาสที่ค้นพบระหว่างปี 2554-2559 เป็น OOD สำหรับการตรวจสอบ และอีก 60 คลาสแบคทีเรียที่แตกต่างกันที่ค้นพบหลังปี 2559 เป็น OOD สำหรับการทดสอบ ในจำนวนแบคทีเรียทั้งหมด 130 คลาส โปรดทราบว่าข้อมูลการฝึกอบรม การตรวจสอบความถูกต้อง และการทดสอบมีให้สำหรับคลาสที่จำหน่าย และข้อมูลการตรวจสอบความถูกต้องและการทดสอบได้รับการจัดเตรียมสำหรับคลาส OOD โดยธรรมชาติแล้ว จะไม่มีข้อมูล OOD ในขณะฝึกอบรม
ลำดับจีโนมมีความยาว 250 ซึ่งประกอบด้วยอักขระ {A, C, G, T} ขนาดตัวอย่างของแต่ละชั้นเรียนคือ 100,000 ในการฝึกอบรมและ 10,000 สำหรับชุดตรวจสอบและทดสอบ
สำหรับแต่ละตัวอย่าง คุณลักษณะประกอบด้วย: seq: ลำดับดีเอ็นเออินพุตที่ประกอบด้วย {A, C, G, T} ป้ายกำกับ: ชื่อของชั้นแบคทีเรีย seq_info: ที่มาของลำดับดีเอ็นเอ กล่าวคือ ชื่อจีโนม หมายเลขภาคยานุวัติ NCBI และตำแหน่งที่สุ่มตัวอย่าง โดเมน: ถ้าแบคทีเรียอยู่ในการกระจาย (ใน) หรือ OOD (ood)
รายละเอียดของชุดข้อมูลสามารถพบได้ในเอกสารประกอบ
โฮมเพจ: https://github.com/google-research/google-research/tree/master/genomics_ood
รหัสที่มา:
tfds.structured.GenomicsOod
รุ่น:
-
0.0.1
(เริ่มต้น): ไม่มีบันทึกประจำรุ่น
-
ขนาดการดาวน์โหลด:
Unknown size
ขนาดชุด:
926.87 MiB
ออโต้แคช ( เอกสาร ): ไม่มี
แยก:
แยก | ตัวอย่าง |
---|---|
'test' | 100,000 |
'test_ood' | 600,000 |
'train' | 1,000,000 |
'validation' | 100,000 |
'validation_ood' | 600,000 |
- คุณสมบัติ:
FeaturesDict({
'domain': Text(shape=(), dtype=tf.string),
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=130),
'seq': Text(shape=(), dtype=tf.string),
'seq_info': Text(shape=(), dtype=tf.string),
})
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):('seq', 'label')
รูป ( tfds.show_examples ): ไม่ได้รับการสนับสนุน
ตัวอย่าง ( tfds.as_dataframe ):
- อ้างอิง:
@inproceedings{ren2019likelihood,
title={Likelihood ratios for out-of-distribution detection},
author={Ren, Jie and
Liu, Peter J and
Fertig, Emily and
Snoek, Jasper and
Poplin, Ryan and
Depristo, Mark and
Dillon, Joshua and
Lakshminarayanan, Balaji},
booktitle={Advances in Neural Information Processing Systems},
pages={14707--14718},
year={2019}
}