phi tiêu

  • Mô tả :

DART (Tạo bản ghi DAta thành văn bản) chứa mối quan hệ thực thể RDF được chú thích bằng mô tả câu bao hàm tất cả các dữ kiện trong bộ ba. DART được xây dựng bằng cách sử dụng các tập dữ liệu hiện có như: WikiTableQuestions, WikiSQL, WebNLG và Cleaned E2E. Các bảng từ WikiTableQuestions và WikiSQL đã được chuyển đổi thành bộ ba chủ đề-vị ngữ-đối tượng và các chú thích văn bản của nó chủ yếu được thu thập từ MTurk. Các biểu diễn có ý nghĩa trong E2E cũng được chuyển đổi thành bộ ba và các mô tả của nó đã được sử dụng, một số không thể chuyển đổi đã bị loại bỏ.

Các phần tách tập dữ liệu của E2E và WebNLG được lưu giữ, và đối với WikiTableQuestions và WikiSQL, tính tương tự Jaccard được sử dụng để giữ các bảng tương tự trong cùng một tập hợp (train / dev / tes).

Tập dữ liệu này được xây dựng theo một định dạng bảng độc lập.

Tách ra Các ví dụ
'test' 12,552
'train' 62.659
'validation' 6.980
  • Cấu trúc tính năng :
FeaturesDict({
    'input_text': FeaturesDict({
        'table': Sequence({
            'column_header': tf.string,
            'content': tf.string,
            'row_number': tf.int16,
        }),
    }),
    'target_text': tf.string,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự miêu tả
Các tính năng
nhập ký tự Các tính năng
input_text / table Sự liên tiếp
input_text / table / column_header Tensor tf.string
input_text / table / content Tensor tf.string
input_text / table / row_number Tensor tf.int16
văn bản đích Tensor tf.string
  • Trích dẫn :
@article{radev2020dart,
  title={DART: Open-Domain Structured Data Record to Text Generation},
  author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
  journal={arXiv preprint arXiv:2007.02871},
  year={2020}