tòa soạn

  • Mô tả :

NEWSROOM là một bộ dữ liệu lớn để đào tạo và đánh giá các hệ thống tóm tắt. Nó chứa 1,3 triệu bài báo và tóm tắt được viết bởi các tác giả và biên tập viên trong các tòa soạn của 38 ấn phẩm lớn.

Các tính năng của bộ dữ liệu bao gồm:

  • văn bản: Nhập văn bản tin tức.
  • summary: Tóm tắt tin tức.

Và các tính năng bổ sung:

  • title: tiêu đề tin tức.
  • url: url của tin tức.
  • date: ngày của bài viết.
  • density: mật độ chiết xuất.
  • độ bao phủ: độ bao phủ khai thác.
  • nén: tỷ lệ nén.
  • density_bin: thấp, trung bình, cao.
  • độ phủ_bin: khai thác, trừu tượng.
  • nén_bin: thấp, trung bình, cao.

Bộ dữ liệu này có thể được tải xuống theo yêu cầu. Giải nén tất cả nội dung "train.jsonl, dev.jsonl, test.jsonl" vào thư mục tfds.

  • Tài liệu bổ sung : Khám phá trên giấy tờ với mã

  • Trang chủ : https://summari.es

  • Mã nguồn : tfds.datasets.newsroom.Builder

  • Phiên bản :

    • 1.0.0 (mặc định): Không có ghi chú phát hành.
  • Kích thước tải xuống : Unknown size

  • Kích thước tập dữ liệu : 5.13 GiB

  • Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
    Bạn nên tải xuống tập dữ liệu từ https://summari.es/download/ Trang web yêu cầu đăng ký. Sau khi tải xuống, vui lòng đặt các tệp dev.jsonl, test.jsonl và train.jsonl trong manual_dir.

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'test' 108,862
'train' 995,041
'validation' 108,837
  • Cấu trúc tính năng :
FeaturesDict({
    'compression': float32,
    'compression_bin': Text(shape=(), dtype=string),
    'coverage': float32,
    'coverage_bin': Text(shape=(), dtype=string),
    'date': Text(shape=(), dtype=string),
    'density': float32,
    'density_bin': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Tính năngDict
nén tenxơ phao32
nén_bin Chữ sợi dây
phủ sóng tenxơ phao32
bảo hiểm_bin Chữ sợi dây
ngày Chữ sợi dây
Tỉ trọng tenxơ phao32
mật độ_bin Chữ sợi dây
bản tóm tắt Chữ sợi dây
chữ Chữ sợi dây
tiêu đề Chữ sợi dây
url Chữ sợi dây
  • trích dẫn :
@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}