জিনোমিক্স_জড

  • বর্ণনা:

জিনোমিক সিকোয়েন্সের উপর ভিত্তি করে ব্যাকটেরিয়া সনাক্তকরণ রোগের প্রাথমিক সনাক্তকরণের প্রতিশ্রুতি রাখে, কিন্তু এমন একটি মডেলের প্রয়োজন যা নতুন ব্যাকটেরিয়া থেকে আউট-অফ-ডিস্ট্রিবিউশন (ওওডি) জিনোমিক সিকোয়েন্সের উপর কম আস্থা পূর্বাভাস দিতে পারে যা প্রশিক্ষণ তথ্যগুলিতে উপস্থিত ছিল না।

আমরা OOD সনাক্তকরণের জন্য একটি জিনোমিক্স ডেটাসেট প্রবর্তন করি যা অন্যান্য গবেষকদের এই গুরুত্বপূর্ণ সমস্যাটির অগ্রগতির মানদণ্ডের অনুমতি দেয়। বছরের পর বছর ধরে ধীরে ধীরে নতুন ব্যাকটেরিয়া শ্রেণী আবিষ্কৃত হয়। বন্টন এবং OOD উদাহরণ অনুকরণ করার জন্য বছরের পর বছর শ্রেণীভুক্ত করা একটি প্রাকৃতিক উপায়।

ডেটাসেটে 10 টি ব্যাকটেরিয়া শ্রেণীর নমুনাযুক্ত জিনোমিক সিকোয়েন্স রয়েছে যা 2011 সালের আগে ইন-ডিস্ট্রিবিউশন ক্লাস হিসাবে আবিষ্কৃত হয়েছিল, 2011-2016 এর মধ্যে 60 টি ব্যাকটেরিয়া ক্লাস যা যাচাইয়ের জন্য OOD হিসাবে এবং 2016 এর পরে আবিষ্কৃত অন্য 60 টি ভিন্ন ব্যাকটেরিয়া ক্লাস যা পরীক্ষার জন্য OOD হিসাবে, মোট 130 টি ব্যাকটেরিয়া শ্রেণীতে। মনে রাখবেন যে প্রশিক্ষণ, বৈধতা এবং পরীক্ষার ডেটা ইন-ডিস্ট্রিবিউশন ক্লাসের জন্য প্রদান করা হয় এবং OOD ক্লাসের জন্য বৈধতা এবং পরীক্ষার ডেটা প্রদান করা হয়। তার প্রকৃতি অনুসারে, প্রশিক্ষণের সময় ওওডি ডেটা পাওয়া যায় না।

জিনোমিক ক্রমটি 250 দীর্ঘ, যা {A, C, G, T} এর অক্ষর দ্বারা রচিত। প্রতিটি ক্লাসের নমুনার আকার প্রশিক্ষণে 100,000 এবং বৈধতা এবং পরীক্ষার সেটগুলির জন্য 10,000।

প্রতিটি উদাহরণের জন্য, বৈশিষ্ট্যগুলির মধ্যে রয়েছে: seq: {A, C, G, T} দ্বারা রচিত ইনপুট ডিএনএ ক্রম। লেবেল: ব্যাকটেরিয়া শ্রেণীর নাম। seq_info: ডিএনএ সিকোয়েন্সের উৎস, অর্থাৎ, জিনোম নাম, এনসিবিআই অ্যাকসেসন নম্বর, এবং যে অবস্থান থেকে নমুনা নেওয়া হয়েছিল। ডোমেইন: যদি ব্যাকটেরিয়া ইন-ডিস্ট্রিবিউশন (ইন), অথবা ওওডি (ood) হয়

কাগজের পরিপূরকটিতে ডেটাসেটের বিবরণ পাওয়া যাবে।

বিভক্ত উদাহরণ
'test' 100,000
'test_ood' 600,000
'train' 1,000,000
'validation' 100,000
'validation_ood' 600,000
  • বৈশিষ্ট্য:
FeaturesDict({
    'domain': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=130),
    'seq': Text(shape=(), dtype=tf.string),
    'seq_info': Text(shape=(), dtype=tf.string),
})
  • উদ্ধৃতি:
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}