cnn_dailymail

Mô tả :

Bộ dữ liệu tóm tắt không ẩn danh của CNN/DailyMail.

Có hai tính năng: - bài báo: văn bản của bài báo, được sử dụng làm tài liệu được tóm tắt - điểm nổi bật: văn bản nổi bật được nối với và xung quanh mỗi điểm nổi bật, là mục tiêu tóm tắt

Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/abisee/cnn-dailymail
Mã nguồn : tfds.summarization.CnnDailymail
Phiên bản :
- 1.0.0 : API phân tách mới ( https://tensorflow.org/datasets/splits )
- 2.0.0 : Tách các câu mục tiêu bằng dòng mới. (Việc mô hình dự đoán các dấu phân cách dòng mới giúp đánh giá dễ dàng hơn bằng cách sử dụng ROUGE cấp độ tóm tắt.)
- 3.0.0 : Sử dụng phiên bản có vỏ.
- 3.1.0 : Đã xóa BuilderConfig
- 3.2.0 : Xóa khoảng trắng thừa trước dấu chấm câu được thêm vào. Điều này sẽ không ảnh hưởng đến điểm số ROUGE vì dấu chấm câu đã bị xóa.
- 3.3.0 : Thêm tính năng nhà xuất bản.
- 3.4.0 (mặc định): Thêm tính năng ID.
Kích thước tải xuống : 558.32 MiB
Kích thước tập dữ liệu : 1.29 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :

Tách ra	ví dụ
`'test'`	11.490
`'train'`	287.113
`'validation'`	13,368

Cấu trúc tính năng :

FeaturesDict({
    'article': Text(shape=(), dtype=string),
    'highlights': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'publisher': Text(shape=(), dtype=string),
})

Tài liệu tính năng :

Tính năng	Lớp	Dtype
	Tính năngDict
bài báo	Chữ	sợi dây
nổi bật	Chữ	sợi dây
Tôi	Chữ	sợi dây
nhà xuất bản	Chữ	sợi dây

Các khóa được giám sát (Xem as_supervised doc ): ('article', 'highlights')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):

trích dẫn :

@article{DBLP:journals/corr/SeeLM17,
  author    = {Abigail See and
               Peter J. Liu and
               Christopher D. Manning},
  title     = {Get To The Point: Summarization with Pointer-Generator Networks},
  journal   = {CoRR},
  volume    = {abs/1704.04368},
  year      = {2017},
  url       = {http://arxiv.org/abs/1704.04368},
  archivePrefix = {arXiv},
  eprint    = {1704.04368},
  timestamp = {Mon, 13 Aug 2018 16:46:08 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/SeeLM17},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

@inproceedings{hermann2015teaching,
  title={Teaching machines to read and comprehend},
  author={Hermann, Karl Moritz and Kocisky, Tomas and Grefenstette, Edward and Espeholt, Lasse and Kay, Will and Suleyman, Mustafa and Blunsom, Phil},
  booktitle={Advances in neural information processing systems},
  pages={1693--1701},
  year={2015}
}