- Descrizione :
Questo set di dati contiene circa 3 milioni di messaggi da reddit. Ogni messaggio è etichettato con metadati. L'attività è prevedere l'id del suo messaggio principale nel thread corrispondente. Ogni record contiene un elenco di messaggi da un thread. I record duplicati e interrotti vengono rimossi dal set di dati.
Le caratteristiche sono:
- id - id messaggio
- testo - testo del messaggio
- autore - autore del messaggio
- created_utc - timestamp UTC del messaggio
- link_id - ID del post a cui si riferisce il commento
Obbiettivo:
parent_id - id del messaggio principale nel thread corrente
Home page : https://github.com/henghuiz/MaskedHierarchicalTransformer
Codice sorgente :
tfds.datasets.reddit_disentanglement.Builder
Versioni :
-
2.0.0
(impostazione predefinita): nessuna nota di rilascio.
-
Dimensioni del download :
Unknown size
Dimensioni del set di dati :
Unknown size
Istruzioni per il download manuale : questo set di dati richiede di scaricare manualmente i dati di origine in
download_config.manual_dir
(il valore predefinito~/tensorflow_datasets/downloads/manual/
):
Scarica https://github.com/henghuiz/MaskedHierarchicalTransformer, decomprimi raw_data.zip ed esegui generate_dataset.py con le tue credenziali API reddit. Quindi inserisci train.csv, val.csv e test.csv dalla directory di output nella cartella manual.Cache automatica ( documentazione ): Sconosciuto
Divisioni :
Diviso | Esempi |
---|
- Struttura delle caratteristiche :
FeaturesDict({
'thread': Sequence({
'author': Text(shape=(), dtype=string),
'created_utc': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'link_id': Text(shape=(), dtype=string),
'parent_id': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
}),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
filo | Sequenza | |||
filo/autore | Testo | corda | ||
discussione/creato_utc | Testo | corda | ||
filo/id | Testo | corda | ||
thread/link_id | Testo | corda | ||
thread/id_genitore | Testo | corda | ||
filo/testo | Testo | corda |
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ): Mancante.
Citazione :
@article{zhu2019did,
title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
journal={arXiv preprint arXiv:1911.10666},
year={2019}
}