- תיאור:
זיהוי חיידקים המבוססים על רצפים גנומיים מקיים את ההבטחה לגילוי מוקדם של מחלות, אך דורש מודל שיכול לייצר תחזיות ביטחון נמוכות על רצפים גנומיים מחוץ להפצה (OOD) מחיידקים חדשים שלא היו נתונים בנתוני האימון.
אנו מציגים מאגר נתונים גנומי לאיתור OOD המאפשר לחוקרים אחרים לאמת את ההתקדמות בבעיה חשובה זו. שיעורי חיידקים חדשים מתגלים בהדרגה עם השנים. קיבוץ כיתות לפי שנים הוא דרך טבעית לחקות את דוגמאות ההפצה ו- OOD.
מערך הנתונים מכיל רצפים גנומיים שנדגמו מ -10 שיעורי חיידקים שהתגלו לפני שנת 2011 כשיעורי הפצה, 60 שיעורי חיידקים שהתגלו בין 2011-2016 כ- OOD לאימות ועוד 60 שיעורי חיידקים שונים שהתגלו לאחר 2016 כ- OOD לבדיקה, בסך הכל 130 שיעורי חיידקים. שים לב כי נתוני הדרכה, אימות ומבחנים ניתנים עבור שיעורי ההפצה, ונתוני אימות ובדיקה ניתנים לשיעורי OOD. מטבעו, נתוני OOD אינם זמינים בזמן ההכשרה.
הרצף הגנומי ארוך 250, מורכב על ידי תווים של {A, C, G, T}. גודל המדגם של כל כיתה הוא 100,000 בהכשרה ו -10,000 לאימות ובדיקות.
עבור כל דוגמה, התכונות כוללות: seq: רצף ה- DNA הקלט המורכב על ידי {A, C, G, T}. label: שם מחלקת החיידקים. seq_info: המקור לרצף ה- DNA, כלומר שם הגנום, מספר הצטרפות NCBI והמיקום שממנו הוא נדגם. תחום: אם החיידק נמצא בהפצה (ב), או OOD (ood)
ניתן למצוא את פרטי מערך הנתונים במצורף המסמך.
דף הבית: https://github.com/google-research/google-research/tree/master/genomics_ood
קוד מקור:
tfds.structured.GenomicsOod
גרסאות:
-
0.0.1
(ברירת המחדל): הערות השחרור לא.
-
גודל ההורדה:
Unknown size
מערך נתונים גודל:
926.87 MiB
Auto-במטמון ( תיעוד ): אין
פיצולים:
לְפַצֵל | דוגמאות |
---|---|
'test' | 100,000 |
'test_ood' | 600,000 |
'train' | 1,000,000 |
'validation' | 100,000 |
'validation_ood' | 600,000 |
- מאפיינים:
FeaturesDict({
'domain': Text(shape=(), dtype=tf.string),
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=130),
'seq': Text(shape=(), dtype=tf.string),
'seq_info': Text(shape=(), dtype=tf.string),
})
מפתחות השגחה (ראה
as_supervised
doc ):('seq', 'label')
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט:
@inproceedings{ren2019likelihood,
title={Likelihood ratios for out-of-distribution detection},
author={Ren, Jie and
Liu, Peter J and
Fertig, Emily and
Snoek, Jasper and
Poplin, Ryan and
Depristo, Mark and
Dillon, Joshua and
Lakshminarayanan, Balaji},
booktitle={Advances in Neural Information Processing Systems},
pages={14707--14718},
year={2019}
}