- Descrição :
DART (Registro de dados para geração de texto) contém relação de entidade RDF anotada com descrições de sentenças que cobrem todos os fatos no conjunto triplo. O DART foi construído usando conjuntos de dados existentes, como: WikiTableQuestions, WikiSQL, WebNLG e Cleaned E2E. As tabelas de WikiTableQuestions e WikiSQL foram transformadas em triplos sujeito-predicado-objeto, e suas anotações de texto foram coletadas principalmente do MTurk. As representações significativas em E2E também foram transformadas em triplas e suas descrições foram usadas, algumas que não puderam ser transformadas foram descartadas.
As divisões do conjunto de dados de E2E e WebNLG são mantidas e, para WikiTableQuestions e WikiSQL, a similaridade Jaccard é usada para manter tabelas semelhantes no mesmo conjunto (train/dev/tes).
Este conjunto de dados é construído seguindo um formato de tabela padronizado.
Documentação Adicional : Explore em Papers With Code
Página inicial : https://github.com/Yale-LILY/dart
Código -fonte:
tfds.structured.dart.Dart
Versões :
-
0.1.0
(padrão): sem notas de versão.
-
Tamanho do download :
249.71 MiB
Tamanho do conjunto de dados :
38.83 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 12.552 |
'train' | 62.659 |
'validation' | 6.980 |
- Estrutura de recursos :
FeaturesDict({
'input_text': FeaturesDict({
'table': Sequence({
'column_header': string,
'content': string,
'row_number': int16,
}),
}),
'target_text': string,
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
Entrada de texto | RecursosDict | |||
texto_entrada/tabela | Seqüência | |||
input_text/table/column_header | tensor | corda | ||
texto_entrada/tabela/conteúdo | tensor | corda | ||
input_text/table/row_number | tensor | int16 | ||
texto_alvo | tensor | corda |
Chaves supervisionadas (consulte o documento
as_supervised
):('input_text', 'target_text')
Figura ( tfds.show_examples ): Não compatível.
Exemplos ( tfds.as_dataframe ):
- Citação :
@article{radev2020dart,
title={DART: Open-Domain Structured Data Record to Text Generation},
author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
journal={arXiv preprint arXiv:2007.02871},
year={2020}