- विवरण :
SAMSum Corpus में मैन्युअल रूप से एनोटेट किए गए सारांशों के साथ 16k से अधिक चैट संवाद शामिल हैं।
दो विशेषताएं हैं:
- संवाद: संवाद का पाठ।
- सारांश: संवाद का मानव लिखित सारांश।
आईडी: एक उदाहरण की आईडी।
अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें
स्रोत कोड :
tfds.datasets.samsum.Builderसंस्करण :
-
1.0.0(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
डाउनलोड आकार :
Unknown sizeडेटासेट का आकार :
10.71 MiBमैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से
download_config.manual_dir(डिफ़ॉल्ट रूप से~/tensorflow_datasets/downloads/manual/) में डाउनलोड करना होगा:
https://arxiv.org/src/1911.12237v2/anc/corpus.7z डाउनलोड करें, डीकंप्रेस करें और मैन्युअल फोल्डर में train.json, val.json और test.json रखें।ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 819 |
'train' | 14,732 |
'validation' | 818 |
- फ़ीचर संरचना :
FeaturesDict({
'dialogue': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| विशेषताएं डिक्ट | ||||
| वार्ता | मूलपाठ | डोरी | ||
| पहचान | मूलपाठ | डोरी | ||
| सारांश | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_superviseddoc देखें):('dialogue', 'summary')चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@article{gliwa2019samsum,
title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
journal={arXiv preprint arXiv:1911.12237},
year={2019}
}