xsum

विवरण :

एक्सट्रीम समराइज़ेशन (XSum) डेटासेट।

इसकी दो विशेषताएं हैं: - दस्तावेज़: इनपुट समाचार लेख। - सारांश: लेख का एक वाक्य सारांश।

https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md फ़ोल्डर 'xsum-extracts-from-downloads' में वर्णित के अनुसार इस डेटा को मैन्युअल रूप से डाउनलोड और निकालने की आवश्यकता है। 'xsum-extracts-from-downloads.tar.gz' और मैन्युअल रूप से डाउनलोड किए गए फ़ोल्डर में डालें।

अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें
होमपेज : https://github.com/EdinburghNLP/XSum/tree/master/XSum-Dataset
स्रोत कोड : tfds.summarization.Xsum
संस्करण :
- 1.0.0 : बिना सफाई के डेटासेट।
- 1.1.0 (डिफ़ॉल्ट): वेब सामग्री को हटाता है।
डाउनलोड आकार : 2.59 MiB
डेटासेट का आकार : 512.03 MiB
मैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से download_config.manual_dir (डिफ़ॉल्ट रूप से ~/tensorflow_datasets/downloads/manual/ ) में डाउनलोड करना होगा:
विस्तृत डाउनलोड निर्देश (जिसमें एक कस्टम स्क्रिप्ट चलाने की आवश्यकता होती है) यहां हैं: https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md#running-the-download-and-extraction-scripts बाद में , कृपया मैन्युअल_डीआईआर में xsum-extracts-from-downloads.tar.gz फ़ाइल डालें।
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :

विभाजित करना	उदाहरण
`'test'`	11,301
`'train'`	203,577
`'validation'`	11,305

फ़ीचर संरचना :

FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	डीटाइप
	विशेषताएं डिक्ट
दस्तावेज़	मूलपाठ	डोरी
सारांश	मूलपाठ	डोरी

पर्यवेक्षित कुंजी ( as_supervised दस्तावेज़ देखें): ('document', 'summary')
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):

उद्धरण :

@article{Narayan2018DontGM,
  title={Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization},
  author={Shashi Narayan and Shay B. Cohen and Mirella Lapata},
  journal={ArXiv},
  year={2018},
  volume={abs/1808.08745}
}

xsum संग्रह की मदद से व्यवस्थित रहें अपनी प्राथमिकताओं के आधार पर, कॉन्टेंट को सेव करें और कैटगरी में बांटें.

xsum