genomics_ood

  • توضیحات :

شناسایی باکتری‌ها بر اساس توالی‌های ژنومی نوید تشخیص زودهنگام بیماری‌ها را دارد، اما نیاز به مدلی دارد که بتواند پیش‌بینی‌های با اطمینان پایین روی توالی‌های ژنومی خارج از توزیع (OOD) از باکتری‌های جدیدی که در داده‌های آموزشی وجود نداشتند، ارائه دهد.

ما یک مجموعه داده ژنومیک را برای تشخیص OOD معرفی می‌کنیم که به سایر محققان امکان می‌دهد پیشرفت را در این مشکل مهم محک بزنند. کلاس های باکتریایی جدید به تدریج در طول سال ها کشف می شوند. گروه بندی کلاس ها بر اساس سال یک روش طبیعی برای تقلید از نمونه های در توزیع و OOD است.

مجموعه داده شامل توالی های ژنومی نمونه برداری شده از 10 کلاس باکتری است که قبل از سال 2011 به عنوان کلاس های توزیعی کشف شده بودند، 60 کلاس باکتری که بین سال های 2011-2016 به عنوان OOD برای اعتبار سنجی کشف شده بودند، و 60 کلاس باکتری دیگر که پس از سال 2016 به عنوان OOD برای آزمایش کشف شدند. در مجموع 130 کلاس باکتری. توجه داشته باشید که داده‌های آموزش، اعتبارسنجی و آزمایش برای کلاس‌های درون توزیعی و داده‌های اعتبارسنجی و آزمون برای کلاس‌های OOD ارائه شده‌اند. طبق ماهیت خود، داده های OOD در زمان آموزش در دسترس نیستند.

توالی ژنومی 250 طول دارد که توسط کاراکترهای {A، C، G، T} تشکیل شده است. حجم نمونه هر کلاس 100000 در آموزش و 10000 برای اعتبارسنجی و مجموعه تست می باشد.

برای هر مثال، ویژگی ها عبارتند از: seq: توالی DNA ورودی که توسط {A، C، G، T} تشکیل شده است. برچسب: نام کلاس باکتری. seq_info: منبع توالی DNA، به عنوان مثال، نام ژنوم، شماره دسترسی NCBI، و موقعیتی که از آن نمونه برداری شده است. دامنه: اگر باکتری در توزیع (in) باشد یا OOD (ood)

جزئیات مجموعه داده را می توان در مقاله تکمیلی یافت.

شکاف مثال ها
'test' 100000
'test_ood' 600000
'train' 1,000,000
'validation' 100000
'validation_ood' 600000
  • ساختار ویژگی :
FeaturesDict({
   
'domain': Text(shape=(), dtype=string),
   
'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
   
'seq': Text(shape=(), dtype=string),
   
'seq_info': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
دامنه متن رشته
برچسب ClassLabel int64
دنباله متن رشته
seq_info متن رشته
  • نقل قول :
@inproceedings{ren2019likelihood,
  title
={Likelihood ratios for out-of-distribution detection},
  author
={Ren, Jie and
 
Liu, Peter J and
 
Fertig, Emily and
 
Snoek, Jasper and
 
Poplin, Ryan and
 
Depristo, Mark and
 
Dillon, Joshua and
 
Lakshminarayanan, Balaji},
  booktitle
={Advances in Neural Information Processing Systems},
  pages
={14707--14718},
  year
={2019}
}