- Mô tả :
BookSum: Bộ sưu tập các bộ dữ liệu để tóm tắt tường thuật dạng dài
Việc triển khai này hiện chỉ hỗ trợ tóm tắt sách và chương.
GitHub: https://github.com/salesforce/booksum
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/salesforce/booksum
Mã nguồn :
tfds.datasets.booksum.Builder
Phiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Kích thước tải xuống :
Unknown size
Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào
download_config.manual_dir
(mặc định là~/tensorflow_datasets/downloads/manual/
):1) Truy cập https://github.com/salesforce/booksum và chạy các bước 1-3. Đặt toàn bộ dự án git
booksum
vào thư mục thủ công. 2) Tải xuống các sách được phân chương từ https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zip và giải nén vào thư mục thủ công.
Thư mục thủ công nên chứa các thư mục sau:
- `booksum/`
- `all_chapterized_books/`
Tự động lưu vào bộ nhớ cache ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi
shuffle_files=False
(đào tạo)Cấu trúc tính năng :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
tài liệu | Chữ | sợi dây | ||
bản tóm tắt | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('document', 'summary')
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@article{kryscinski2021booksum,
title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
year={2021},
eprint={2105.08209},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
bookum/book (cấu hình mặc định)
Mô tả cấu hình : Tóm tắt cấp sách
Kích thước tập dữ liệu :
208.81 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 46 |
'train' | 312 |
'validation' | 45 |
- Ví dụ ( tfds.as_dataframe ):
tổng sách/chương
Mô tả cấu hình : tóm tắt cấp chương
Kích thước tập dữ liệu :
216.71 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.083 |
'train' | 6,524 |
'validation' | 891 |
- Ví dụ ( tfds.as_dataframe ):