- Descrição :
WikiDialog é um grande conjunto de dados de conversas de busca de informações geradas sinteticamente. Cada conversa no conjunto de dados contém dois falantes fundamentados em uma passagem da Wikipedia em inglês: as declarações de um falante consistem em sentenças exatas da passagem; o outro falante é gerado por um grande modelo de linguagem.
Descrição da configuração : WikiDialog gerado a partir do diálogo inpainter ajustado em OR-QuAC e QReCC.
OQ
significa OR-QuAC e QReCC.Página inicial : https://github.com/google-research/dialog-inpainting#wikidialog-oq
Código -fonte:
tfds.text.wiki_dialog.WikiDialog
Versões :
-
1.0.0
(padrão): versão inicial.
-
Tamanho do download :
7.04 GiB
Tamanho do conjunto de dados :
36.58 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'train' | 11.264.129 |
'validation' | 113.822 |
- Estrutura de recursos :
FeaturesDict({
'author_num': Sequence(int32),
'passage': Text(shape=(), dtype=string),
'pid': Text(shape=(), dtype=string),
'sentences': Sequence(Text(shape=(), dtype=string)),
'title': Text(shape=(), dtype=string),
'utterances': Sequence(Text(shape=(), dtype=string)),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
autor_num | Sequência(Tensor) | (Nenhum,) | int32 | |
passagem | Texto | corda | ||
pid | Texto | corda | ||
frases | Sequência (Texto) | (Nenhum,) | corda | |
título | Texto | corda | ||
enunciados | Sequência (Texto) | (Nenhum,) | corda |
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ):
- Citação :
@inproceedings{dai2022dialoginpainting,
title={Dialog Inpainting: Turning Documents to Dialogs},
author={Dai, Zhuyun and Chaganty, Arun Tejasvi and Zhao, Vincent and Amini, Aida and Green, Mike and Rashid, Qazi and Guu, Kelvin},
booktitle={International Conference on Machine Learning (ICML)},
year={2022},
organization={PMLR}
}