SAMSUNG

  • विवरण :

SAMSum Corpus में मैन्युअल रूप से एनोटेट किए गए सारांशों के साथ 16k से अधिक चैट संवाद शामिल हैं।

दो विशेषताएं हैं:

विभाजित करना उदाहरण
'test' 819
'train' 14,732
'validation' 818
  • फ़ीचर संरचना :
FeaturesDict({
    'dialogue': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
वार्ता मूलपाठ डोरी
पहचान मूलपाठ डोरी
सारांश मूलपाठ डोरी
  • उद्धरण :
@article{gliwa2019samsum,
  title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
  author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
  journal={arXiv preprint arXiv:1911.12237},
  year={2019}
}