विकी_ऑटो

  • विवरण :

WikiAuto वाक्य सरलीकरण प्रणालियों को प्रशिक्षित करने के लिए एक संसाधन के रूप में अंग्रेजी विकिपीडिया और सरल अंग्रेजी विकिपीडिया से संरेखित वाक्यों का एक सेट प्रदान करता है। लेखकों ने पहले सरल अंग्रेजी विकिपीडिया के एक उपसमुच्चय में वाक्यों के बीच मैनुअल संरेखण का एक सेट क्राउड-सोर्स किया और अंग्रेजी विकिपीडिया में उनके संबंधित संस्करण (यह manual कॉन्फ़िगरेशन से मेल खाता है), फिर इन संरेखणों की भविष्यवाणी करने के लिए एक तंत्रिका सीआरएफ प्रणाली को प्रशिक्षित किया। तब प्रशिक्षित मॉडल को अंग्रेजी समकक्ष के साथ सरल अंग्रेजी विकिपीडिया के अन्य लेखों पर संरेखित वाक्यों का एक बड़ा कॉर्पस बनाने के लिए लागू किया गया था (यहां auto , auto_acl , auto_full_no_split , और auto_full_with_split कॉन्फ़िगरेशन के अनुरूप)।

@inproceedings{acl/JiangMLZX20,
  author    
= {Chao Jiang and
               
Mounica Maddela and
               
Wuwei Lan and
               
Yang Zhong and
               
Wei Xu},
  editor    
= {Dan Jurafsky and
               
Joyce Chai and
               
Natalie Schluter and
               
Joel R. Tetreault},
  title    
= {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle
= {Proceedings of the 58th Annual Meeting of the Association for Computational
               
Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages    
= {7943--7960},
  publisher
= {Association for Computational Linguistics},
  year      
= {2020},
  url      
= {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto/मैनुअल (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • कॉन्फिग विवरण : भीड़ कार्यकर्ताओं द्वारा संरेखित 10K विकिपीडिया वाक्य जोड़े का एक सेट।

  • डाउनलोड आकार : 53.47 MiB

  • डेटासेट का आकार : 76.87 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'dev' 73,249
'test' 118,074
  • फ़ीचर संरचना :
FeaturesDict({
   
'GLEU-score': float64,
   
'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
   
'normal_sentence': Text(shape=(), dtype=string),
   
'normal_sentence_id': Text(shape=(), dtype=string),
   
'simple_sentence': Text(shape=(), dtype=string),
   
'simple_sentence_id': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
जीएलईयू-स्कोर टेन्सर फ्लोट64
संरेखण_लेबल क्लासलेबल int64
normal_sentence मूलपाठ डोरी
सामान्य_वाक्य_आईडी मूलपाठ डोरी
सरल वाक्य मूलपाठ डोरी
simple_sentence_id मूलपाठ डोरी

wiki_auto/auto_acl

  • Config विवरण : ACL2020 सिस्टम को प्रशिक्षित करने के लिए संरेखित वाक्य जोड़े।

  • डाउनलोड आकार : 112.60 MiB

  • डेटासेट का आकार : 138.83 MiB

  • स्वतः संचित ( दस्तावेज़ीकरण ): केवल जब shuffle_files=False (पूर्ण)

  • विभाजन :

विभाजित करना उदाहरण
'full' 488,332
  • फ़ीचर संरचना :
FeaturesDict({
   
'normal_sentence': Text(shape=(), dtype=string),
   
'simple_sentence': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
normal_sentence मूलपाठ डोरी
सरल वाक्य मूलपाठ डोरी

wiki_auto/auto_full_no_split

  • कॉन्फिग विवरण : वाक्य विभाजन के बिना सभी स्वचालित रूप से संरेखित वाक्य जोड़े।

  • डाउनलोड आकार : 135.02 MiB

  • डेटासेट का आकार : 166.78 MiB

  • स्वतः संचित ( दस्तावेज़ीकरण ): केवल जब shuffle_files=False (पूर्ण)

  • विभाजन :

विभाजित करना उदाहरण
'full' 591,994
  • फ़ीचर संरचना :
FeaturesDict({
   
'normal_sentence': Text(shape=(), dtype=string),
   
'simple_sentence': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
normal_sentence मूलपाठ डोरी
सरल वाक्य मूलपाठ डोरी

wiki_auto/auto_full_with_split

  • Config विवरण : वाक्य विभाजन के साथ सभी स्वचालित रूप से संरेखित वाक्य जोड़े।

  • डाउनलोड आकार : 115.09 MiB

  • डेटासेट का आकार : 141.20 MiB

  • स्वतः संचित ( दस्तावेज़ीकरण ): केवल जब shuffle_files=False (पूर्ण)

  • विभाजन :

विभाजित करना उदाहरण
'full' 483,801
  • फ़ीचर संरचना :
FeaturesDict({
   
'normal_sentence': Text(shape=(), dtype=string),
   
'simple_sentence': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
normal_sentence मूलपाठ डोरी
सरल वाक्य मूलपाठ डोरी

विकि_ऑटो/ऑटो

  • विन्यास विवरण : स्वचालित रूप से संरेखित वाक्य जोड़े का एक बड़ा सेट।

  • डाउनलोड आकार : 2.01 GiB

  • डेटासेट का आकार : 1.76 GiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'part_1' 125,059
'part_2' 13,036
  • फ़ीचर संरचना :
FeaturesDict({
   
'example_id': Text(shape=(), dtype=string),
   
'normal': FeaturesDict({
       
'normal_article_content': Sequence({
           
'normal_sentence': Text(shape=(), dtype=string),
           
'normal_sentence_id': Text(shape=(), dtype=string),
       
}),
       
'normal_article_id': int32,
       
'normal_article_title': Text(shape=(), dtype=string),
       
'normal_article_url': Text(shape=(), dtype=string),
   
}),
   
'paragraph_alignment': Sequence({
       
'normal_paragraph_id': Text(shape=(), dtype=string),
       
'simple_paragraph_id': Text(shape=(), dtype=string),
   
}),
   
'sentence_alignment': Sequence({
       
'normal_sentence_id': Text(shape=(), dtype=string),
       
'simple_sentence_id': Text(shape=(), dtype=string),
   
}),
   
'simple': FeaturesDict({
       
'simple_article_content': Sequence({
           
'simple_sentence': Text(shape=(), dtype=string),
           
'simple_sentence_id': Text(shape=(), dtype=string),
       
}),
       
'simple_article_id': int32,
       
'simple_article_title': Text(shape=(), dtype=string),
       
'simple_article_url': Text(shape=(), dtype=string),
   
}),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
example_id मूलपाठ डोरी
सामान्य विशेषताएं डिक्ट
सामान्य/सामान्य_लेख_सामग्री क्रम
सामान्य/सामान्य_लेख_सामग्री/सामान्य_वाक्य मूलपाठ डोरी
सामान्य/सामान्य_लेख_सामग्री/सामान्य_वाक्य_आईडी मूलपाठ डोरी
सामान्य/सामान्य_लेख_आईडी टेन्सर int32
सामान्य/सामान्य_लेख_शीर्षक मूलपाठ डोरी
सामान्य/सामान्य_लेख_यूआरएल मूलपाठ डोरी
para_alignment क्रम
पैराग्राफ_अलाइनमेंट/नॉर्मल_पैराग्राफ_आईडी मूलपाठ डोरी
पैराग्राफ_अलाइनमेंट/सरल_पैराग्राफ_आईडी मूलपाठ डोरी
वाक्य_संरेखण क्रम
वाक्य_संरेखण/सामान्य_वाक्य_आईडी मूलपाठ डोरी
वाक्य_संरेखण/सरल_वाक्य_आईडी मूलपाठ डोरी
सरल विशेषताएं डिक्ट
सरल/सरल_लेख_सामग्री क्रम
सरल/सरल_लेख_सामग्री/सरल_वाक्य मूलपाठ डोरी
सरल/सरल_लेख_सामग्री/सरल_वाक्य_आईडी मूलपाठ डोरी
सरल/सरल_लेख_आईडी टेन्सर int32
सरल/सरल_लेख_शीर्षक मूलपाठ डोरी
सरल/सरल_लेख_यूआरएल मूलपाठ डोरी