- Deskripsi :
DART (Data Data to Text generation) berisi entitas-relasi RDF yang dianotasi dengan deskripsi kalimat yang mencakup semua fakta dalam set tiga. DART dibangun menggunakan kumpulan data yang ada seperti: WikiTableQuestions, WikiSQL, WebNLG dan Cleaned E2E. Tabel dari WikiTableQuestions dan WikiSQL diubah menjadi tiga kali lipat subjek-predikat-objek, dan anotasi teksnya sebagian besar dikumpulkan dari MTurk. Representasi yang bermakna di E2E juga diubah menjadi tiga kali lipat dan deskripsinya digunakan, beberapa yang tidak dapat diubah dihilangkan.
Perpecahan dataset E2E dan WebNLG disimpan, dan untuk WikiTableQuestions dan WikiSQL kesamaan Jaccard digunakan untuk menyimpan tabel serupa di set yang sama (train/dev/tes).
Kumpulan data ini dibangun mengikuti format tabel standar.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://github.com/Yale-LILY/dart
Kode sumber :
tfds.structured.dart.Dart
Versi :
-
0.1.0
(default): Tidak ada catatan rilis.
-
Ukuran unduhan :
249.71 MiB
Ukuran dataset :
38.83 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 12.552 |
'train' | 62.659 |
'validation' | 6.980 |
- Struktur fitur :
FeaturesDict({
'input_text': FeaturesDict({
'table': Sequence({
'column_header': string,
'content': string,
'row_number': int16,
}),
}),
'target_text': string,
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
Masukkan teks | fiturDict | |||
masukan_teks/tabel | Urutan | |||
input_text/table/column_header | Tensor | rangkaian | ||
input_teks/tabel/konten | Tensor | rangkaian | ||
input_teks/tabel/nomor_baris | Tensor | int16 | ||
target_text | Tensor | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):('input_text', 'target_text')
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):
- Kutipan :
@article{radev2020dart,
title={DART: Open-Domain Structured Data Record to Text Generation},
author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
journal={arXiv preprint arXiv:2007.02871},
year={2020}