- Mô tả :
Bộ dữ liệu tóm tắt không ẩn danh của CNN/DailyMail.
Có hai tính năng: - bài báo: văn bản của bài báo, được sử dụng làm tài liệu được tóm tắt - điểm nổi bật: văn bản nổi bật được nối với và xung quanh mỗi điểm nổi bật, là mục tiêu tóm tắt
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/abisee/cnn-dailymail
Mã nguồn :
tfds.summarization.CnnDailymail
Phiên bản :
-
1.0.0
: API phân tách mới ( https://tensorflow.org/datasets/splits ) 2.0.0
: Tách các câu mục tiêu bằng dòng mới. (Việc mô hình dự đoán các dấu phân cách dòng mới giúp đánh giá dễ dàng hơn bằng cách sử dụng ROUGE cấp độ tóm tắt.)3.0.0
: Sử dụng phiên bản có vỏ.3.1.0
: Đã xóa BuilderConfig3.2.0
: Xóa khoảng trắng thừa trước dấu chấm câu được thêm vào. Điều này sẽ không ảnh hưởng đến điểm số ROUGE vì dấu chấm câu đã bị xóa.3.3.0
: Thêm tính năng nhà xuất bản.3.4.0
(mặc định): Thêm tính năng ID.
-
Kích thước tải xuống :
558.32 MiB
Kích thước tập dữ liệu :
1.29 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 11.490 |
'train' | 287.113 |
'validation' | 13,368 |
- Cấu trúc tính năng :
FeaturesDict({
'article': Text(shape=(), dtype=string),
'highlights': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'publisher': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
bài báo | Chữ | sợi dây | ||
nổi bật | Chữ | sợi dây | ||
Tôi | Chữ | sợi dây | ||
nhà xuất bản | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('article', 'highlights')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{DBLP:journals/corr/SeeLM17,
author = {Abigail See and
Peter J. Liu and
Christopher D. Manning},
title = {Get To The Point: Summarization with Pointer-Generator Networks},
journal = {CoRR},
volume = {abs/1704.04368},
year = {2017},
url = {http://arxiv.org/abs/1704.04368},
archivePrefix = {arXiv},
eprint = {1704.04368},
timestamp = {Mon, 13 Aug 2018 16:46:08 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/SeeLM17},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
@inproceedings{hermann2015teaching,
title={Teaching machines to read and comprehend},
author={Hermann, Karl Moritz and Kocisky, Tomas and Grefenstette, Edward and Espeholt, Lasse and Kay, Will and Suleyman, Mustafa and Blunsom, Phil},
booktitle={Advances in neural information processing systems},
pages={1693--1701},
year={2015}
}