xsum

  • Mô tả :

Bộ dữ liệu tóm tắt cực đại (XSum).

Có hai tính năng: - tài liệu: Nhập tin bài. - tóm tắt: Một câu tóm tắt của bài viết.

Dữ liệu này cần được tải xuống và trích xuất thủ công như được mô tả trong https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md Thư mục 'xsum-extracts-from-downloads' cần được nén dưới dạng 'xsum-extracts-from-downloads.tar.gz' và đặt vào thư mục đã tải xuống thủ công.

Tách ra ví dụ
'test' 11,301
'train' 203,577
'validation' 11,305
  • Cấu trúc tính năng :
FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
tài liệu Chữ sợi dây
bản tóm tắt Chữ sợi dây
  • trích dẫn :
@article{Narayan2018DontGM,
  title={Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization},
  author={Shashi Narayan and Shay B. Cohen and Mirella Lapata},
  journal={ArXiv},
  year={2018},
  volume={abs/1808.08745}
}