- Mô tả :
NEWSROOM là một bộ dữ liệu lớn để đào tạo và đánh giá các hệ thống tóm tắt. Nó chứa 1,3 triệu bài báo và tóm tắt được viết bởi các tác giả và biên tập viên trong các tòa soạn của 38 ấn phẩm lớn.
Các tính năng của bộ dữ liệu bao gồm:
- văn bản: Nhập văn bản tin tức.
- summary: Tóm tắt tin tức.
Và các tính năng bổ sung:
- title: tiêu đề tin tức.
- url: url của tin tức.
- date: ngày của bài viết.
- density: mật độ chiết xuất.
- độ bao phủ: độ bao phủ khai thác.
- nén: tỷ lệ nén.
- density_bin: thấp, trung bình, cao.
- độ phủ_bin: khai thác, trừu tượng.
- nén_bin: thấp, trung bình, cao.
Bộ dữ liệu này có thể được tải xuống theo yêu cầu. Giải nén tất cả nội dung "train.jsonl, dev.jsonl, test.jsonl" vào thư mục tfds.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://summari.es
Mã nguồn :
tfds.datasets.newsroom.Builder
Phiên bản :
-
1.0.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
Unknown size
Kích thước tập dữ liệu :
5.13 GiB
Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào
download_config.manual_dir
(mặc định là~/tensorflow_datasets/downloads/manual/
):
Bạn nên tải xuống tập dữ liệu từ https://summari.es/download/ Trang web yêu cầu đăng ký. Sau khi tải xuống, vui lòng đặt các tệp dev.jsonl, test.jsonl và train.jsonl trong manual_dir.Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 108,862 |
'train' | 995,041 |
'validation' | 108,837 |
- Cấu trúc tính năng :
FeaturesDict({
'compression': float32,
'compression_bin': Text(shape=(), dtype=string),
'coverage': float32,
'coverage_bin': Text(shape=(), dtype=string),
'date': Text(shape=(), dtype=string),
'density': float32,
'density_bin': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
nén | tenxơ | phao32 | ||
nén_bin | Chữ | sợi dây | ||
phủ sóng | tenxơ | phao32 | ||
bảo hiểm_bin | Chữ | sợi dây | ||
ngày | Chữ | sợi dây | ||
Tỉ trọng | tenxơ | phao32 | ||
mật độ_bin | Chữ | sợi dây | ||
bản tóm tắt | Chữ | sợi dây | ||
chữ | Chữ | sợi dây | ||
tiêu đề | Chữ | sợi dây | ||
url | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('text', 'summary')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{Grusky_2018,
title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
url={http://dx.doi.org/10.18653/v1/n18-1065},
DOI={10.18653/v1/n18-1065},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 1 (Long Papers)},
publisher={Association for Computational Linguistics},
author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
year={2018}
}