- Mô tả :
WikiBio được xây dựng bằng cách sử dụng các trang tiểu sử Wikipedia, nó chứa đoạn đầu tiên và hộp thông tin được mã hóa. Bộ dữ liệu tuân theo định dạng bảng được chuẩn hóa.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/DavidGrangier/wikipedia-biography-dataset
Mã nguồn :
tfds.structured.WikiBio
Phiên bản :
-
0.1.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
318.53 MiB
Kích thước tập dữ liệu :
795.98 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 72,831 |
'train' | 582.659 |
'validation' | 72,831 |
- Cấu trúc tính năng :
FeaturesDict({
'input_text': FeaturesDict({
'context': string,
'table': Sequence({
'column_header': string,
'content': string,
'row_number': int16,
}),
}),
'target_text': string,
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
nhập ký tự | Tính năngDict | |||
input_text/bối cảnh | tenxơ | sợi dây | ||
input_text/bảng | Sự phối hợp | |||
input_text/table/column_header | tenxơ | sợi dây | ||
input_text/bảng/nội dung | tenxơ | sợi dây | ||
input_text/table/row_number | tenxơ | int16 | ||
văn bản đích | tenxơ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('input_text', 'target_text')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{lebret-etal-2016-neural,
title = "Neural Text Generation from Structured Data with Application to the Biography Domain",
author = "Lebret, R{'e}mi and
Grangier, David and
Auli, Michael",
booktitle = "Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing",
month = nov,
year = "2016",
address = "Austin, Texas",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/D16-1128",
doi = "10.18653/v1/D16-1128",
pages = "1203--1213",
}