- Mô tả :
Bộ dữ liệu tóm tắt SummScreen, phiên bản không ẩn danh, không mã hóa.
Việc phân tách và lọc tập huấn/val/kiểm tra dựa trên tập dữ liệu được mã hóa cuối cùng, nhưng bản ghi và tóm tắt được cung cấp dựa trên văn bản chưa được mã hóa.
Có hai tính năng:
- bản ghi: Bản ghi đầy đủ của tập, mỗi dòng đối thoại được phân tách bằng dòng mới
recap: Tóm tắt hoặc tóm tắt các tập phim
Trang chủ : https://github.com/mingdachen/SummScreen
Mã nguồn :
tfds.datasets.summscreen.Builder
Phiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Kích thước tải xuống :
841.27 MiB
Các khóa được giám sát (Xem
as_supervised
doc ):('transcript', 'recap')
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@article{DBLP:journals/corr/abs-2104-07091,
author = {Mingda Chen and
Zewei Chu and
Sam Wiseman and
Kevin Gimpel},
title = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
journal = {CoRR},
volume = {abs/2104.07091},
year = {2021},
url = {https://arxiv.org/abs/2104.07091},
archivePrefix = {arXiv},
eprint = {2104.07091},
timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
summscreen/fd (cấu hình mặc định)
Mô tả cấu hình : ForeverDreaming
Kích thước tập dữ liệu :
132.99 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 337 |
'train' | 3,673 |
'validation' | 338 |
- Cấu trúc tính năng :
FeaturesDict({
'episode_number': Text(shape=(), dtype=string),
'episode_title': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Đặc tính | Tầng lớp | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
tập_số | Chữ | chuỗi | ||
tập_title | Chữ | chuỗi | ||
tóm tắt lại | Chữ | chuỗi | ||
show_title | Chữ | chuỗi | ||
bảng điểm | Chữ | chuỗi | ||
bản ghi_tác giả | Chữ | chuỗi |
- Ví dụ ( tfds.as_dataframe ):
tóm tắt/tms
Mô tả cấu hình : TVMegaSite
Kích thước tập dữ liệu :
592.53 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.793 |
'train' | 18,915 |
'validation' | 1.795 |
- Cấu trúc tính năng :
FeaturesDict({
'episode_summary': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'recap_author': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Tensor(shape=(None,), dtype=string),
})
- Tài liệu tính năng :
Đặc tính | Tầng lớp | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
tập_tóm tắt | Chữ | chuỗi | ||
tóm tắt lại | Chữ | chuỗi | ||
tóm tắt_tác giả | Chữ | chuỗi | ||
show_title | Chữ | chuỗi | ||
bảng điểm | Chữ | chuỗi | ||
bản ghi_tác giả | tenxơ | (Không có,) | chuỗi |
- Ví dụ ( tfds.as_dataframe ):