जीनोमिक्स_ओड

  • विवरण :

जीनोमिक अनुक्रमों के आधार पर बैक्टीरिया की पहचान में बीमारियों का जल्द पता लगाने का वादा होता है, लेकिन एक ऐसे मॉडल की आवश्यकता होती है जो नए बैक्टीरिया से आउट-ऑफ-डिस्ट्रीब्यूशन (OOD) जीनोमिक अनुक्रमों पर कम आत्मविश्वास की भविष्यवाणियों का उत्पादन कर सके जो प्रशिक्षण डेटा में मौजूद नहीं थे।

हम ओओडी पहचान के लिए एक जीनोमिक्स डेटासेट पेश करते हैं जो अन्य शोधकर्ताओं को इस महत्वपूर्ण समस्या पर बेंचमार्क प्रगति की अनुमति देता है। पिछले कुछ वर्षों में नए जीवाणु वर्ग धीरे-धीरे खोजे गए हैं। वर्षों से ग्रुपिंग कक्षाएं इन-डिस्ट्रीब्यूशन और ओओडी उदाहरणों की नकल करने का एक स्वाभाविक तरीका है।

डेटासेट में 10 बैक्टीरिया वर्गों से लिए गए जीनोमिक अनुक्रम शामिल हैं जिन्हें वर्ष 2011 से पहले इन-डिस्ट्रीब्यूशन कक्षाओं के रूप में खोजा गया था, सत्यापन के लिए OOD के रूप में 2011-2016 के बीच 60 बैक्टीरिया वर्गों की खोज की गई थी, और 2016 के बाद परीक्षण के लिए OOD के रूप में खोजे गए अन्य 60 विभिन्न बैक्टीरिया वर्ग थे। कुल 130 बैक्टीरिया वर्गों में। ध्यान दें कि वितरण कक्षाओं के लिए प्रशिक्षण, सत्यापन और परीक्षण डेटा प्रदान किए जाते हैं, और ओओडी कक्षाओं के लिए सत्यापन और परीक्षण डेटा प्रदान किए जाते हैं। इसकी प्रकृति से, प्रशिक्षण के समय OOD डेटा उपलब्ध नहीं है।

जीनोमिक अनुक्रम 250 लंबा है, जो {A, C, G, T} के वर्णों से बना है। प्रशिक्षण में प्रत्येक वर्ग का नमूना आकार 100,000 और सत्यापन और परीक्षण सेट के लिए 10,000 है।

प्रत्येक उदाहरण के लिए, सुविधाओं में शामिल हैं: seq: {ए, सी, जी, टी} द्वारा रचित इनपुट डीएनए अनुक्रम। लेबल: जीवाणु वर्ग का नाम। seq_info: डीएनए अनुक्रम का स्रोत, यानी, जीनोम का नाम, NCBI परिग्रहण संख्या, और वह स्थान जहाँ से इसका नमूना लिया गया था। डोमेन: यदि बैक्टीरिया इन-डिस्ट्रीब्यूशन (इन), या OOD (ood) है

डेटासेट का विवरण पेपर सप्लीमेंट में पाया जा सकता है।

विभाजित करना उदाहरण
'test' 100,000
'test_ood' 600,000
'train' 1,000,000
'validation' 100,000
'validation_ood' 600,000
  • फ़ीचर संरचना :
FeaturesDict({
   
'domain': Text(shape=(), dtype=string),
   
'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
   
'seq': Text(shape=(), dtype=string),
   
'seq_info': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
कार्यक्षेत्र मूलपाठ डोरी
लेबल क्लासलेबल int64
स्व-परीक्षा प्रश्न मूलपाठ डोरी
seq_info मूलपाठ डोरी
  • उद्धरण :
@inproceedings{ren2019likelihood,
  title
={Likelihood ratios for out-of-distribution detection},
  author
={Ren, Jie and
 
Liu, Peter J and
 
Fertig, Emily and
 
Snoek, Jasper and
 
Poplin, Ryan and
 
Depristo, Mark and
 
Dillon, Joshua and
 
Lakshminarayanan, Balaji},
  booktitle
={Advances in Neural Information Processing Systems},
  pages
={14707--14718},
  year
={2019}
}