cnn_dailymail

  • Mô tả :

Tập dữ liệu tóm tắt không ẩn danh của CNN / DailyMail.

Có hai tính năng: - article: văn bản của bài báo, được sử dụng làm tài liệu để tóm tắt - phần nổi bật: phần văn bản nổi bật được kết hợp với xung quanh mỗi điểm nổi bật, đó là phần tóm tắt mục tiêu

  • Trang chủ : https://github.com/abisee/cnn-dailymail

  • Mã nguồn : tfds.summarization.CnnDailymail

  • Các phiên bản :

    • 1.0.0 : API phân tách mới ( https://tensorflow.org/datasets/splits )
    • 2.0.0 : Tách các câu đích bằng dòng mới. (Có mô hình dự đoán dấu phân cách dòng mới giúp đánh giá dễ dàng hơn bằng cách sử dụng ROUGE cấp tóm tắt.)

    • 3.0.0 : Sử dụng phiên bản cased.

    • 3.1.0 : Loại bỏ BuilderConfig

    • 3.2.0 : Bỏ khoảng trắng trước dấu chấm câu được thêm vào. Điều này sẽ không ảnh hưởng đến điểm ROUGE vì dấu chấm câu bị xóa.

    • 3.3.0 : Thêm tính năng nhà xuất bản.

    • 3.4.0 (mặc định) : Thêm tính năng ID.

  • Kích thước tải xuống : 558.32 MiB

  • Kích thước tập dữ liệu : 1.29 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 11.490
'train' 287.113
'validation' 13.368
  • Cấu trúc tính năng :
FeaturesDict({
    'article': Text(shape=(), dtype=tf.string),
    'highlights': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'publisher': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
bài báo Chữ tf.string
điểm nổi bật Chữ tf.string
Tôi Chữ tf.string
nhà xuất bản Chữ tf.string
  • Trích dẫn :
@article{DBLP:journals/corr/SeeLM17,
  author    = {Abigail See and
               Peter J. Liu and
               Christopher D. Manning},
  title     = {Get To The Point: Summarization with Pointer-Generator Networks},
  journal   = {CoRR},
  volume    = {abs/1704.04368},
  year      = {2017},
  url       = {http://arxiv.org/abs/1704.04368},
  archivePrefix = {arXiv},
  eprint    = {1704.04368},
  timestamp = {Mon, 13 Aug 2018 16:46:08 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/SeeLM17},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

@inproceedings{hermann2015teaching,
  title={Teaching machines to read and comprehend},
  author={Hermann, Karl Moritz and Kocisky, Tomas and Grefenstette, Edward and Espeholt, Lasse and Kay, Will and Suleyman, Mustafa and Blunsom, Phil},
  booktitle={Advances in neural information processing systems},
  pages={1693--1701},
  year={2015}
}