- Descrição :
O conjunto de dados IRC Disentanglement contém mais de 77.563 mensagens do canal Ubuntu IRC.
Os recursos incluem ID da mensagem, texto da mensagem e carimbo de data/hora. Alvo é uma lista de mensagens às quais a mensagem atual responde. Cada registro contém uma lista de mensagens de um dia de bate-papo do IRC.
Documentação Adicional : Explore em Papers With Code
Página inicial : https://jkk.name/irc-disentanglement
Código-fonte :
tfds.datasets.irc_disentanglement.Builder
Versões :
-
2.0.0
(padrão): sem notas de versão.
-
Tamanho do download :
113.53 MiB
Tamanho do conjunto de dados :
26.59 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 10 |
'train' | 153 |
'validation' | 10 |
- Estrutura de recursos :
FeaturesDict({
'day': Sequence({
'id': Text(shape=(), dtype=string),
'parents': Sequence(Text(shape=(), dtype=string)),
'text': Text(shape=(), dtype=string),
'timestamp': Text(shape=(), dtype=string),
}),
})
- Documentação do recurso :
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
dia | Seqüência | |||
dia/id | Texto | corda | ||
dia/pais | Sequência (Texto) | (Nenhum,) | corda | |
dia/texto | Texto | corda | ||
dia/hora | Texto | corda |
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ):
- Citação :
@InProceedings{acl19disentangle,
author = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
title = {A Large-Scale Corpus for Conversation Disentanglement},
booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
location = {Florence, Italy},
month = {July},
year = {2019},
doi = {10.18653/v1/P19-1374},
pages = {3846--3856},
url = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
arxiv = {https://arxiv.org/abs/1810.11118},
software = {https://jkk.name/irc-disentanglement},
data = {https://jkk.name/irc-disentanglement},
}