genomics_ood

  • תיאור:

זיהוי חיידקים המבוססים על רצפים גנומיים מקיים את ההבטחה לגילוי מוקדם של מחלות, אך דורש מודל שיכול לייצר תחזיות ביטחון נמוכות על רצפים גנומיים מחוץ להפצה (OOD) מחיידקים חדשים שלא היו נתונים בנתוני האימון.

אנו מציגים מאגר נתונים גנומי לאיתור OOD המאפשר לחוקרים אחרים לאמת את ההתקדמות בבעיה חשובה זו. שיעורי חיידקים חדשים מתגלים בהדרגה עם השנים. קיבוץ כיתות לפי שנים הוא דרך טבעית לחקות את דוגמאות ההפצה ו- OOD.

מערך הנתונים מכיל רצפים גנומיים שנדגמו מ -10 שיעורי חיידקים שהתגלו לפני שנת 2011 כשיעורי הפצה, 60 שיעורי חיידקים שהתגלו בין 2011-2016 כ- OOD לאימות ועוד 60 שיעורי חיידקים שונים שהתגלו לאחר 2016 כ- OOD לבדיקה, בסך הכל 130 שיעורי חיידקים. שים לב כי נתוני הדרכה, אימות ומבחנים ניתנים עבור שיעורי ההפצה, ונתוני אימות ובדיקה ניתנים לשיעורי OOD. מטבעו, נתוני OOD אינם זמינים בזמן ההכשרה.

הרצף הגנומי ארוך 250, מורכב על ידי תווים של {A, C, G, T}. גודל המדגם של כל כיתה הוא 100,000 בהכשרה ו -10,000 לאימות ובדיקות.

עבור כל דוגמה, התכונות כוללות: seq: רצף ה- DNA הקלט המורכב על ידי {A, C, G, T}. label: שם מחלקת החיידקים. seq_info: המקור לרצף ה- DNA, כלומר שם הגנום, מספר הצטרפות NCBI והמיקום שממנו הוא נדגם. תחום: אם החיידק נמצא בהפצה (ב), או OOD (ood)

ניתן למצוא את פרטי מערך הנתונים במצורף המסמך.

לְפַצֵל דוגמאות
'test' 100,000
'test_ood' 600,000
'train' 1,000,000
'validation' 100,000
'validation_ood' 600,000
  • מאפיינים:
FeaturesDict({
    'domain': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=130),
    'seq': Text(shape=(), dtype=tf.string),
    'seq_info': Text(shape=(), dtype=tf.string),
})
  • ציטוט:
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}