tòa soạn

  • Mô tả :

NEWSROOM là một tập dữ liệu lớn để đào tạo và đánh giá các hệ thống tóm tắt. Nó chứa 1,3 triệu bài báo và tóm tắt được viết bởi các tác giả và biên tập viên trong các tòa soạn của 38 ấn phẩm lớn.

Các tính năng của tập dữ liệu bao gồm: - text: Nhập văn bản tin tức. - tóm tắt: Tóm tắt cho tin tức. Và các tính năng bổ sung: - title: tiêu đề tin tức. - url: url của tin tức. - date: ngày của bài báo. - mật độ: mật độ chiết. - vùng phủ sóng: vùng phủ sóng khai thác. - nén: tỷ số nén. - Mật độ_bin: thấp, trung bình, cao. - cover_bin: khai thác, trừu tượng. - nén_bin: thấp, trung bình, cao.

Bộ dữ liệu này có thể được tải xuống theo yêu cầu. Giải nén tất cả nội dung "train.jsonl, dev.josnl, test.jsonl" vào thư mục tfds.

  • Trang chủ : https://summari.es

  • Mã nguồn : tfds.summarization.Newsroom

  • Các phiên bản :

    • 1.0.0 (mặc định): Không có ghi chú phát hành.
  • Kích thước tải xuống : Unknown size

  • Kích thước tập dữ liệu : Unknown size

  • Hướng dẫn tải xuống thủ công: Tập dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
    Bạn nên tải xuống bộ dữ liệu từ https://summari.es/download/ Trang web yêu cầu đăng ký. Sau khi tải xuống, vui lòng đặt các tệp dev.jsonl, test.jsonl và train.jsonl vào manual_dir.

  • Tự động lưu trong bộ nhớ đệm ( tài liệu ): Không xác định

  • Tách :

Tách ra Các ví dụ
'test' 108.862
'train' 995.041
'validation' 108.837
  • Cấu trúc tính năng :
FeaturesDict({
    'compression': tf.float32,
    'compression_bin': Text(shape=(), dtype=tf.string),
    'coverage': tf.float32,
    'coverage_bin': Text(shape=(), dtype=tf.string),
    'date': Text(shape=(), dtype=tf.string),
    'density': tf.float32,
    'density_bin': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự miêu tả
Các tính năng
nén Tensor tf.float32
nén_bin Bản văn tf.string
phủ sóng Tensor tf.float32
cover_bin Bản văn tf.string
ngày tháng Bản văn tf.string
Tỉ trọng Tensor tf.float32
mật độ_bin Bản văn tf.string
tóm lược Bản văn tf.string
bản văn Bản văn tf.string
chức vụ Bản văn tf.string
url Bản văn tf.string
  • Trích dẫn :
@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}