- Mô tả :
Tập dữ liệu SummScreen Summarization, phiên bản không ẩn danh, không mã hóa.
Việc tách và lọc train / val / test dựa trên tập dữ liệu được mã hóa cuối cùng, nhưng bản ghi và bản tóm tắt được cung cấp dựa trên văn bản chưa được mã hóa.
Có hai tính năng:
- transcript: Bản ghi toàn tập, mỗi dòng đối thoại được phân tách bằng dòng mới
tóm tắt: Bản tóm tắt hoặc tóm tắt của các tập
Trang chủ : https://github.com/mingdachen/SummScreen
Mã nguồn :
tfds.summarization.summscreen.Summscreen
Các phiên bản :
-
1.0.0
(mặc định): Bản phát hành ban đầu.
-
Kích thước tải xuống :
841.27 MiB
Các khóa được giám sát (Xem
as_supervised
doc ):('transcript', 'recap')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Trích dẫn :
@article{DBLP:journals/corr/abs-2104-07091,
author = {Mingda Chen and
Zewei Chu and
Sam Wiseman and
Kevin Gimpel},
title = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
journal = {CoRR},
volume = {abs/2104.07091},
year = {2021},
url = {https://arxiv.org/abs/2104.07091},
archivePrefix = {arXiv},
eprint = {2104.07091},
timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
summscreen / fd (cấu hình mặc định)
Mô tả cấu hình : ForeverDreaming
Kích thước tập dữ liệu:
132.99 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 337 |
'train' | 3.673 |
'validation' | 338 |
- Cấu trúc tính năng :
FeaturesDict({
'episode_number': Text(shape=(), dtype=tf.string),
'episode_title': Text(shape=(), dtype=tf.string),
'recap': Text(shape=(), dtype=tf.string),
'show_title': Text(shape=(), dtype=tf.string),
'transcript': Text(shape=(), dtype=tf.string),
'transcript_author': Text(shape=(), dtype=tf.string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự miêu tả |
---|---|---|---|---|
Các tính năng | ||||
Episode_number | Bản văn | tf.string | ||
Episode_title | Bản văn | tf.string | ||
tóm tắt lại | Bản văn | tf.string | ||
show_title | Bản văn | tf.string | ||
bảng điểm | Bản văn | tf.string | ||
transcript_author | Bản văn | tf.string |
- Ví dụ ( tfds.as_dataframe ):
summscreen / tms
Mô tả cấu hình : TVMegaSite
Kích thước tập dữ liệu:
592.53 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 1.793 |
'train' | 18,915 |
'validation' | 1.795 |
- Cấu trúc tính năng :
FeaturesDict({
'episode_summary': Text(shape=(), dtype=tf.string),
'recap': Text(shape=(), dtype=tf.string),
'recap_author': Text(shape=(), dtype=tf.string),
'show_title': Text(shape=(), dtype=tf.string),
'transcript': Text(shape=(), dtype=tf.string),
'transcript_author': Tensor(shape=(None,), dtype=tf.string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự miêu tả |
---|---|---|---|---|
Các tính năng | ||||
Episode_summary | Bản văn | tf.string | ||
tóm tắt lại | Bản văn | tf.string | ||
recap_author | Bản văn | tf.string | ||
show_title | Bản văn | tf.string | ||
bảng điểm | Bản văn | tf.string | ||
transcript_author | Tensor | (Không có,) | tf.string |
- Ví dụ ( tfds.as_dataframe ):