genomics_ood

  • বর্ণনা :

জিনোমিক সিকোয়েন্সের উপর ভিত্তি করে ব্যাকটেরিয়া সনাক্তকরণ রোগের প্রাথমিক সনাক্তকরণের প্রতিশ্রুতি ধারণ করে, তবে এমন একটি মডেলের প্রয়োজন যা প্রশিক্ষণের ডেটাতে উপস্থিত ছিল না এমন নতুন ব্যাকটেরিয়া থেকে আউট-অফ-ডিস্ট্রিবিউশন (OOD) জিনোমিক সিকোয়েন্সের উপর কম আত্মবিশ্বাসের পূর্বাভাস দিতে পারে।

আমরা OOD সনাক্তকরণের জন্য একটি জিনোমিক্স ডেটাসেট প্রবর্তন করি যা অন্যান্য গবেষকদের এই গুরুত্বপূর্ণ সমস্যাটির অগ্রগতি বেঞ্চমার্ক করতে দেয়। বছরের পর বছর ধরে নতুন ব্যাকটেরিয়া শ্রেণী ধীরে ধীরে আবিষ্কৃত হয়। বন্টন এবং OOD উদাহরণগুলি অনুকরণ করার একটি প্রাকৃতিক উপায় হল বছর অনুসারে ক্লাসগুলিকে গোষ্ঠীবদ্ধ করা৷

ডেটাসেটে 10টি ব্যাকটেরিয়া ক্লাস থেকে নমুনা নেওয়া জিনোমিক সিকোয়েন্স রয়েছে যা 2011 সালের আগে ইন-ডিস্ট্রিবিউশন ক্লাস হিসাবে আবিষ্কৃত হয়েছিল, 2011-2016-এর মধ্যে 60টি ব্যাকটেরিয়া ক্লাস যাচাইকরণের জন্য OOD হিসাবে আবিষ্কৃত হয়েছিল, এবং 2016-এর পরে OD টেস্ট হিসাবে আবিষ্কৃত আরও 60টি ভিন্ন ব্যাকটেরিয়া ক্লাস রয়েছে। মোট 130টি ব্যাকটেরিয়া ক্লাস। মনে রাখবেন যে প্রশিক্ষণ, বৈধতা, এবং পরীক্ষার ডেটা ইন-ডিস্ট্রিবিউশন ক্লাসের জন্য সরবরাহ করা হয় এবং OOD ক্লাসের জন্য বৈধতা এবং পরীক্ষার ডেটা সরবরাহ করা হয়। এর প্রকৃতি অনুসারে, প্রশিক্ষণের সময় ওওডি ডেটা পাওয়া যায় না।

জিনোমিক ক্রমটি 250 দীর্ঘ, {A, C, G, T} অক্ষর দ্বারা গঠিত। প্রশিক্ষণে প্রতিটি ক্লাসের নমুনার আকার 100,000 এবং বৈধতা এবং পরীক্ষা সেটের জন্য 10,000।

প্রতিটি উদাহরণের জন্য, বৈশিষ্ট্যগুলির মধ্যে রয়েছে: seq: {A, C, G, T} দ্বারা গঠিত ইনপুট DNA ক্রম। লেবেল: ব্যাকটেরিয়া শ্রেণীর নাম। seq_info: ডিএনএ সিকোয়েন্সের উৎস, অর্থাৎ, জিনোমের নাম, এনসিবিআই অ্যাক্সিশন নম্বর এবং যে অবস্থান থেকে নমুনা নেওয়া হয়েছিল। ডোমেইন: যদি ব্যাকটেরিয়া ইন-ডিস্ট্রিবিউশন (ইন), বা OOD (ood) হয়

ডেটাসেটের বিশদ বিবরণ কাগজের পরিপূরকটিতে পাওয়া যাবে।

বিভক্ত উদাহরণ
'test' 100,000
'test_ood' 600,000
'train' 1,000,000
'validation' 100,000
'validation_ood' 600,000
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
   
'domain': Text(shape=(), dtype=string),
   
'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
   
'seq': Text(shape=(), dtype=string),
   
'seq_info': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
ডোমেইন পাঠ্য স্ট্রিং
লেবেল ক্লাসলেবেল int64
seq পাঠ্য স্ট্রিং
seq_info পাঠ্য স্ট্রিং
  • উদ্ধৃতি :
@inproceedings{ren2019likelihood,
  title
={Likelihood ratios for out-of-distribution detection},
  author
={Ren, Jie and
 
Liu, Peter J and
 
Fertig, Emily and
 
Snoek, Jasper and
 
Poplin, Ryan and
 
Depristo, Mark and
 
Dillon, Joshua and
 
Lakshminarayanan, Balaji},
  booktitle
={Advances in Neural Information Processing Systems},
  pages
={14707--14718},
  year
={2019}
}