- Descrizione :
Il set di dati IRC Disentanglement contiene oltre 77.563 messaggi dal canale IRC di Ubuntu.
Le funzionalità includono ID messaggio, testo del messaggio e timestamp. Destinazione è l'elenco dei messaggi a cui risponde il messaggio corrente. Ogni record contiene un elenco di messaggi di un giorno di chat IRC.
Documentazione aggiuntiva : Esplora documenti con codice
Homepage : https://jkk.name/irc-disentanglement
Codice sorgente :
tfds.datasets.irc_disentanglement.Builder
Versioni :
-
2.0.0
(impostazione predefinita): nessuna nota di rilascio.
-
Dimensione del download :
113.53 MiB
Dimensione del set di dati :
26.59 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'test' | 10 |
'train' | 153 |
'validation' | 10 |
- Struttura delle caratteristiche :
FeaturesDict({
'day': Sequence({
'id': Text(shape=(), dtype=string),
'parents': Sequence(Text(shape=(), dtype=string)),
'text': Text(shape=(), dtype=string),
'timestamp': Text(shape=(), dtype=string),
}),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
giorno | Sequenza | |||
giorno/id | Testo | corda | ||
giorno/genitori | Sequenza(Testo) | (Nessuno,) | corda | |
giorno/testo | Testo | corda | ||
giorno/marca temporale | Testo | corda |
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):
- Citazione :
@InProceedings{acl19disentangle,
author = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
title = {A Large-Scale Corpus for Conversation Disentanglement},
booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
location = {Florence, Italy},
month = {July},
year = {2019},
doi = {10.18653/v1/P19-1374},
pages = {3846--3856},
url = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
arxiv = {https://arxiv.org/abs/1810.11118},
software = {https://jkk.name/irc-disentanglement},
data = {https://jkk.name/irc-disentanglement},
}