cnn_dailymail

  • Mô tả :

Bộ dữ liệu tóm tắt không ẩn danh của CNN/DailyMail.

Có hai tính năng: - bài báo: văn bản của bài báo, được sử dụng làm tài liệu được tóm tắt - điểm nổi bật: văn bản nổi bật được nối với xung quanh mỗi điểm nổi bật, là mục tiêu tóm tắt

  • Tài liệu bổ sung : Khám phá trên giấy tờ với mã

  • Trang chủ : https://github.com/abisee/cnn-dailymail

  • Mã nguồn : tfds.summarization.CnnDailymail

  • Phiên bản :

    • 1.0.0 : API phân tách mới ( https://tensorflow.org/datasets/splits )
    • 2.0.0 : Tách các câu mục tiêu bằng dòng mới. (Việc mô hình dự đoán các dấu phân cách dòng mới giúp đánh giá dễ dàng hơn bằng cách sử dụng ROUGE cấp độ tóm tắt.)

    • 3.0.0 : Sử dụng phiên bản có vỏ.

    • 3.1.0 : Đã xóa BuilderConfig

    • 3.2.0 : Xóa khoảng trắng thừa trước dấu chấm câu được thêm vào. Điều này sẽ không ảnh hưởng đến điểm số ROUGE vì dấu chấm câu đã bị xóa.

    • 3.3.0 : Thêm tính năng nhà xuất bản.

    • 3.4.0 (mặc định): Thêm tính năng ID.

  • Kích thước tải xuống : 558.32 MiB

  • Kích thước tập dữ liệu : 1.29 GiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'test' 11.490
'train' 287.113
'validation' 13,368
  • Cấu trúc tính năng :
FeaturesDict({
    'article': Text(shape=(), dtype=string),
    'highlights': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'publisher': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
bài báo Chữ sợi dây
nổi bật Chữ sợi dây
Tôi Chữ sợi dây
nhà xuất bản Chữ sợi dây
  • trích dẫn :
@article{DBLP:journals/corr/SeeLM17,
  author    = {Abigail See and
               Peter J. Liu and
               Christopher D. Manning},
  title     = {Get To The Point: Summarization with Pointer-Generator Networks},
  journal   = {CoRR},
  volume    = {abs/1704.04368},
  year      = {2017},
  url       = {http://arxiv.org/abs/1704.04368},
  archivePrefix = {arXiv},
  eprint    = {1704.04368},
  timestamp = {Mon, 13 Aug 2018 16:46:08 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/SeeLM17},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

@inproceedings{hermann2015teaching,
  title={Teaching machines to read and comprehend},
  author={Hermann, Karl Moritz and Kocisky, Tomas and Grefenstette, Edward and Espeholt, Lasse and Kay, Will and Suleyman, Mustafa and Blunsom, Phil},
  booktitle={Advances in neural information processing systems},
  pages={1693--1701},
  year={2015}
}