ژنومیک_خوب

  • توضیحات:

شناسایی باکتری ها بر اساس توالی های ژنومی نوید تشخیص زودهنگام بیماری ها را می دهد ، اما به مدلی نیاز دارد که بتواند پیش بینی های پایینی را در توالی های ژنومی خارج از توزیع (OOD) از باکتری های جدید که در داده های آموزشی وجود نداشت ، بدست آورد.

ما مجموعه داده های ژنومی را برای تشخیص OOD معرفی می کنیم که به سایر محققان اجازه می دهد پیشرفت در این مشکل مهم را محک بزنند. کلاسهای جدید باکتریایی طی سالها به تدریج کشف می شوند. گروه بندی کلاس ها بر اساس سال یک روش طبیعی برای تقلید از نمونه های توزیع و OOD است.

مجموعه داده شامل توالی ژنومی از 10 کلاس باکتری است که قبل از سال 2011 به عنوان کلاسهای توزیع ، 60 کلاس باکتری بین 2011-2016 به عنوان OOD برای اعتبار سنجی و 60 کلاس باکتری مختلف دیگر پس از سال 2016 به عنوان OOD برای آزمایش کشف شده بود. در مجموع 130 کلاس باکتری توجه داشته باشید که آموزش ، اعتبار سنجی و داده های آزمایشی برای کلاس های درون توزیع ارائه می شود و داده های اعتبارسنجی و آزمون برای کلاس های OOD ارائه می شود. طبق ماهیت خود ، داده های OOD در زمان آموزش در دسترس نیست.

توالی ژنومیک 250 طول دارد که از نویسه های {A ، C ، G ، T} تشکیل شده است. حجم نمونه هر کلاس 100000 در آموزش و 10.000 برای مجموعه های اعتبار سنجی و آزمون است.

برای هر مثال ، ویژگی ها عبارتند از: seq: دنباله DNA ورودی که از {A ، C ، G ، T} تشکیل شده است. label: نام کلاس باکتری ها. seq_info: منبع توالی DNA ، یعنی نام ژنوم ، شماره دسترسی NCBI و موقعیت نمونه برداری از آن. دامنه: اگر باکتری ها در حال توزیع (in) یا OOD (ood) باشند

جزئیات مجموعه داده را می توانید در مقاله تکمیلی مشاهده کنید.

شکاف مثال ها
'test' 100000
'test_ood' 600000
'train' 1،000،000
'validation' 100000
'validation_ood' 600000
  • ویژگی ها:
FeaturesDict({
    'domain': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=130),
    'seq': Text(shape=(), dtype=tf.string),
    'seq_info': Text(shape=(), dtype=tf.string),
})
  • ارجاع:
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}