genmica_ood

תיאור :

זיהוי חיידקים המבוסס על רצפים גנומיים טומן בחובו הבטחה לגילוי מוקדם של מחלות, אך דורש מודל שיכול להפיק תחזיות ביטחון נמוך על רצפים גנומיים מחוץ להפצה (OOD) מחיידקים חדשים שלא היו נוכחים בנתוני האימון.

אנו מציגים מערך נתונים גנומי לזיהוי OOD המאפשר לחוקרים אחרים לסמן התקדמות בבעיה חשובה זו. סוגים חדשים של חיידקים מתגלים בהדרגה עם השנים. קיבוץ כיתות לפי שנים הוא דרך טבעית לחקות את הדוגמאות בתוך ההפצה וה-OOD.

מערך הנתונים מכיל רצפים גנומיים שנדגמו מ-10 מחלקות חיידקים שהתגלו לפני שנת 2011 כמחלקות בתפוצה, 60 מחלקות חיידקים שהתגלו בין השנים 2011-2016 כ-OOD לצורך אימות, ועוד 60 מחלקות חיידקים שונות שהתגלו לאחר 2016 כ-OOD לבדיקה, בסך הכל 130 מחלקות חיידקים. שים לב שנתוני הדרכה, אימות ומבחן מסופקים עבור שיעורי ההפצה, ונתוני אימות ונתוני מבחן מסופקים עבור שיעורי OOD. מטבעם, נתוני OOD אינם זמינים בזמן האימון.

הרצף הגנומי הוא באורך 250, מורכב מתווים של {A, C, G, T}. גודל המדגם של כל כיתה הוא 100,000 בהכשרה ו-10,000 עבור מערכי האימות והמבחנים.

עבור כל דוגמה, התכונות כוללות: seq: רצף ה-DNA הקלט המורכב על ידי {A, C, G, T}. תווית: שם מחלקת החיידקים. seq_info: מקור רצף ה-DNA, כלומר, שם הגנום, מספר ההצטרפות ל-NCBI והמיקום ממנו נדגמו. תחום: אם החיידק נמצא בתפוצה (in), או OOD (ood)

ניתן למצוא את הפרטים של מערך הנתונים בתוספת הנייר.

תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://github.com/google-research/google-research/tree/master/genomics_ood
קוד מקור : tfds.structured.GenomicsOod
גרסאות :
- 0.0.1 (ברירת מחדל): אין הערות שחרור.
גודל הורדה : Unknown size
גודל מערך נתונים : 926.87 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :

לְפַצֵל	דוגמאות
`'test'`	100,000
`'test_ood'`	600,000
`'train'`	1,000,000
`'validation'`	100,000
`'validation_ood'`	600,000

מבנה תכונה :

FeaturesDict({
    'domain': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
    'seq': Text(shape=(), dtype=string),
    'seq_info': Text(shape=(), dtype=string),
})

תיעוד תכונה :

תכונה	מעמד	Dtype
	FeaturesDict
תְחוּם	טֶקסט	חוּט
תווית	ClassLabel	int64
seq	טֶקסט	חוּט
seq_info	טֶקסט	חוּט

מפתחות בפיקוח (ראה as_supervised doc ): ('seq', 'label')
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):

ציטוט :

@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}

genmica_ood קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

genmica_ood