- opis :
DART (Generowanie rekordu danych do tekstu) zawiera relację encji RDF z adnotacjami opisami zdań, które obejmują wszystkie fakty w potrójnym zbiorze. DART został skonstruowany przy użyciu istniejących zestawów danych, takich jak: WikiTableQuestions, WikiSQL, WebNLG i Cleaned E2E. Tabele z WikiTableQuestions i WikiSQL zostały przekształcone w trójki podmiot-predykat-obiekt, a ich adnotacje tekstowe zostały zebrane głównie z MTurk. Znaczące reprezentacje w E2E również zostały przekształcone w trójki i wykorzystano ich opisy, niektóre, których nie można było przekształcić, zostały odrzucone.
Podziały zbiorów danych E2E i WebNLG są zachowywane, a dla WikiTableQuestions i WikiSQL podobieństwo Jaccarda jest używane do utrzymywania podobnych tabel w tym samym zestawie (train/dev/tes).
Ten zestaw danych jest tworzony zgodnie ze znormalizowanym formatem tabeli.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://github.com/Yale-LILY/dart
Kod źródłowy :
tfds.structured.dart.Dart
Wersje :
-
0.1.0
(domyślnie): Brak informacji o wersji.
-
Rozmiar pliku do pobrania :
249.71 MiB
Rozmiar zestawu danych :
38.83 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 12552 |
'train' | 62659 |
'validation' | 6980 |
- Struktura funkcji :
FeaturesDict({
'input_text': FeaturesDict({
'table': Sequence({
'column_header': string,
'content': string,
'row_number': int16,
}),
}),
'target_text': string,
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
Wprowadź tekst | FunkcjeDict | |||
tekst_wejściowy/tabela | Sekwencja | |||
tekst_wejściowy/tabela/nagłówek_kolumny | Napinacz | strunowy | ||
tekst_wejściowy/tabela/treść | Napinacz | strunowy | ||
tekst_wejściowy/tabela/numer_wiersza | Napinacz | int16 | ||
tekst_docelowy | Napinacz | strunowy |
Nadzorowane klucze (zobacz dokument
as_supervised
):('input_text', 'target_text')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):
- Cytat :
@article{radev2020dart,
title={DART: Open-Domain Structured Data Record to Text Generation},
author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
journal={arXiv preprint arXiv:2007.02871},
year={2020}