sổ sách

  • Mô tả :

BookSum: Bộ sưu tập các bộ dữ liệu để tóm tắt tường thuật dạng dài

Việc triển khai này hiện chỉ hỗ trợ tóm tắt sách và chương.

GitHub: https://github.com/salesforce/booksum

Thư mục thủ công nên chứa các thư mục sau:

- `booksum/`
- `all_chapterized_books/`
  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi shuffle_files=False (đào tạo)

  • Cấu trúc tính năng :

FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
tài liệu Chữ sợi dây
bản tóm tắt Chữ sợi dây
@article{kryscinski2021booksum,
      title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
      author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
      year={2021},
      eprint={2105.08209},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

bookum/book (cấu hình mặc định)

  • Mô tả cấu hình : Tóm tắt cấp sách

  • Kích thước tập dữ liệu : 208.81 MiB

  • Chia tách :

Tách ra ví dụ
'test' 46
'train' 312
'validation' 45

tổng sách/chương

  • Mô tả cấu hình : tóm tắt cấp chương

  • Kích thước tập dữ liệu : 216.71 MiB

  • Chia tách :

Tách ra ví dụ
'test' 1.083
'train' 6,524
'validation' 891