SAMSUNG

विवरण :

SAMSum Corpus में मैन्युअल रूप से एनोटेट किए गए सारांशों के साथ 16k से अधिक चैट संवाद शामिल हैं।

दो विशेषताएं हैं:

संवाद: संवाद का पाठ।
सारांश: संवाद का मानव लिखित सारांश।
आईडी: एक उदाहरण की आईडी।
अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें
होमपेज : https://arxiv.org/src/1911.12237v2/anc
स्रोत कोड : tfds.datasets.samsum.Builder
संस्करण :
- 1.0.0 (डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
डाउनलोड आकार : Unknown size
डेटासेट का आकार : 10.71 MiB
मैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से download_config.manual_dir (डिफ़ॉल्ट रूप से ~/tensorflow_datasets/downloads/manual/ ) में डाउनलोड करना होगा:
https://arxiv.org/src/1911.12237v2/anc/corpus.7z डाउनलोड करें, डीकंप्रेस करें और मैन्युअल फोल्डर में train.json, val.json और test.json रखें।
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :

विभाजित करना	उदाहरण
`'test'`	819
`'train'`	14,732
`'validation'`	818

फ़ीचर संरचना :

FeaturesDict({
    'dialogue': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	डीटाइप
	विशेषताएं डिक्ट
वार्ता	मूलपाठ	डोरी
पहचान	मूलपाठ	डोरी
सारांश	मूलपाठ	डोरी

पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): ('dialogue', 'summary')
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):

उद्धरण :

@article{gliwa2019samsum,
  title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
  author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
  journal={arXiv preprint arXiv:1911.12237},
  year={2019}
}

SAMSUNG संग्रह की मदद से व्यवस्थित रहें अपनी प्राथमिकताओं के आधार पर, कॉन्टेंट को सेव करें और कैटगरी में बांटें.

SAMSUNG