- الوصف:
إن تحديد البكتيريا على أساس التسلسل الجينومي يبشر بالكشف المبكر عن الأمراض ، ولكنه يتطلب نموذجًا يمكنه إنتاج تنبؤات ثقة منخفضة بشأن التسلسلات الجينية خارج التوزيع (OOD) من بكتيريا جديدة لم تكن موجودة في بيانات التدريب.
نقدم مجموعة بيانات الجينوم لاكتشاف OOD التي تسمح للباحثين الآخرين بقياس التقدم المحرز في هذه المشكلة المهمة. يتم اكتشاف فئات بكتيرية جديدة تدريجيًا على مر السنين. يعد تجميع الفئات حسب السنوات طريقة طبيعية لتقليد أمثلة التوزيع الداخلي وأمثلة OOD.
تحتوي مجموعة البيانات على متواليات جينومية مأخوذة من 10 فئات بكتيريا تم اكتشافها قبل عام 2011 كفئات توزيع ، و 60 فئة بكتيريا تم اكتشافها بين 2011 و 2016 على أنها OOD للتحقق من الصحة ، و 60 فئة أخرى من البكتيريا تم اكتشافها بعد عام 2016 على أنها OOD للاختبار ، في المجموع 130 فئة من البكتيريا. لاحظ أنه يتم توفير بيانات التدريب والتحقق من الصحة والاختبار لفئات التوزيع ، ويتم توفير بيانات التحقق من الصحة والاختبار لفئات OOD. بحكم طبيعتها ، لا تتوفر بيانات OOD في وقت التدريب.
يبلغ طول التسلسل الجينومي 250 ، ويتألف من أحرف {A ، C ، G ، T}. حجم العينة لكل فصل هو 100000 في التدريب و 10000 لمجموعات التحقق من الصحة والاختبار.
لكل مثال ، الميزات تتضمن: seq: تسلسل DNA الإدخال المؤلف من {A، C، G، T}. التسمية: اسم فئة البكتيريا. seq_info: مصدر تسلسل الحمض النووي ، أي اسم الجينوم ورقم دخول NCBI والموقع الذي تم أخذ العينات منه. المجال: إذا كانت البكتيريا قيد التوزيع (في) ، أو OOD (فيضان)
يمكن العثور على تفاصيل مجموعة البيانات في الملحق الورقي.
الصفحة الرئيسية: https://github.com/google-research/google-research/tree/master/genomics_ood
شفرة المصدر:
tfds.structured.GenomicsOod
إصدارات:
-
0.0.1
(الافتراضي): لا ملاحظات الإصدار.
-
حجم التحميل:
Unknown size
بيانات حجم:
926.87 MiB
المخزنة السيارات ( وثائق ): لا
الإنشقاقات:
انشق، مزق | أمثلة |
---|---|
'test' | 100،000 |
'test_ood' | 600000 |
'train' | 1،000،000 |
'validation' | 100،000 |
'validation_ood' | 600000 |
- الميزات:
FeaturesDict({
'domain': Text(shape=(), dtype=tf.string),
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=130),
'seq': Text(shape=(), dtype=tf.string),
'seq_info': Text(shape=(), dtype=tf.string),
})
مفاتيح تحت الملاحظة (انظر
as_supervised
ثيقة ):('seq', 'label')
الشكل ( tfds.show_examples ): غير معتمد.
أمثلة ( tfds.as_dataframe ):
- الاقتباس:
@inproceedings{ren2019likelihood,
title={Likelihood ratios for out-of-distribution detection},
author={Ren, Jie and
Liu, Peter J and
Fertig, Emily and
Snoek, Jasper and
Poplin, Ryan and
Depristo, Mark and
Dillon, Joshua and
Lakshminarayanan, Balaji},
booktitle={Advances in Neural Information Processing Systems},
pages={14707--14718},
year={2019}
}