tòa soạn

Mô tả :

NEWSROOM là một bộ dữ liệu lớn để đào tạo và đánh giá các hệ thống tóm tắt. Nó chứa 1,3 triệu bài báo và tóm tắt được viết bởi các tác giả và biên tập viên trong các tòa soạn của 38 ấn phẩm lớn.

Các tính năng của bộ dữ liệu bao gồm:

văn bản: Nhập văn bản tin tức.
summary: Tóm tắt tin tức.

Và các tính năng bổ sung:

title: tiêu đề tin tức.
url: url của tin tức.
date: ngày của bài viết.
density: mật độ chiết xuất.
độ bao phủ: độ bao phủ khai thác.
nén: tỷ lệ nén.
density_bin: thấp, trung bình, cao.
độ phủ_bin: khai thác, trừu tượng.
nén_bin: thấp, trung bình, cao.

Bộ dữ liệu này có thể được tải xuống theo yêu cầu. Giải nén tất cả nội dung "train.jsonl, dev.jsonl, test.jsonl" vào thư mục tfds.

Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://summari.es
Mã nguồn : tfds.datasets.newsroom.Builder
Phiên bản :
- 1.0.0 (mặc định): Không có ghi chú phát hành.
Kích thước tải xuống : Unknown size
Kích thước tập dữ liệu : 5.13 GiB
Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
Bạn nên tải xuống tập dữ liệu từ https://summari.es/download/ Trang web yêu cầu đăng ký. Sau khi tải xuống, vui lòng đặt các tệp dev.jsonl, test.jsonl và train.jsonl trong manual_dir.
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :

Tách ra	ví dụ
`'test'`	108,862
`'train'`	995,041
`'validation'`	108,837

Cấu trúc tính năng :

FeaturesDict({
    'compression': float32,
    'compression_bin': Text(shape=(), dtype=string),
    'coverage': float32,
    'coverage_bin': Text(shape=(), dtype=string),
    'date': Text(shape=(), dtype=string),
    'density': float32,
    'density_bin': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})

Tài liệu tính năng :

Tính năng	Lớp học	Dtype
	Tính năngDict
nén	tenxơ	phao32
nén_bin	Chữ	sợi dây
phủ sóng	tenxơ	phao32
bảo hiểm_bin	Chữ	sợi dây
ngày	Chữ	sợi dây
Tỉ trọng	tenxơ	phao32
mật độ_bin	Chữ	sợi dây
bản tóm tắt	Chữ	sợi dây
chữ	Chữ	sợi dây
tiêu đề	Chữ	sợi dây
url	Chữ	sợi dây

Các khóa được giám sát (Xem as_supervised doc ): ('text', 'summary')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):

trích dẫn :

@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}

tòa soạn Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

tòa soạn