- Mô tả :
DART (Tạo bản ghi DAta thành văn bản) chứa mối quan hệ thực thể RDF được chú thích bằng mô tả câu bao hàm tất cả các dữ kiện trong bộ ba. DART được xây dựng bằng cách sử dụng các tập dữ liệu hiện có như: WikiTableQuestions, WikiSQL, WebNLG và Cleaned E2E. Các bảng từ WikiTableQuestions và WikiSQL đã được chuyển đổi thành bộ ba chủ đề-vị ngữ-đối tượng và các chú thích văn bản của nó chủ yếu được thu thập từ MTurk. Các biểu diễn có ý nghĩa trong E2E cũng được chuyển đổi thành bộ ba và các mô tả của nó đã được sử dụng, một số không thể chuyển đổi đã bị loại bỏ.
Các phần tách tập dữ liệu của E2E và WebNLG được lưu giữ, và đối với WikiTableQuestions và WikiSQL, tính tương tự Jaccard được sử dụng để giữ các bảng tương tự trong cùng một tập hợp (train / dev / tes).
Tập dữ liệu này được xây dựng theo một định dạng bảng độc lập.
Trang chủ : https://github.com/Yale-LILY/dart
Mã nguồn :
tfds.structured.dart.Dart
Các phiên bản :
-
0.1.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
249.71 MiB
Kích thước tập dữ liệu :
38.83 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 12,552 |
'train' | 62.659 |
'validation' | 6.980 |
- Cấu trúc tính năng :
FeaturesDict({
'input_text': FeaturesDict({
'table': Sequence({
'column_header': tf.string,
'content': tf.string,
'row_number': tf.int16,
}),
}),
'target_text': tf.string,
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự miêu tả |
---|---|---|---|---|
Các tính năng | ||||
nhập ký tự | Các tính năng | |||
input_text / table | Sự liên tiếp | |||
input_text / table / column_header | Tensor | tf.string | ||
input_text / table / content | Tensor | tf.string | ||
input_text / table / row_number | Tensor | tf.int16 | ||
văn bản đích | Tensor | tf.string |
Các khóa được giám sát (Xem
as_supervised
doc ):('input_text', 'target_text')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@article{radev2020dart,
title={DART: Open-Domain Structured Data Record to Text Generation},
author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
journal={arXiv preprint arXiv:2007.02871},
year={2020}