- Descrição :
Este conjunto de dados contém cerca de 3 milhões de mensagens do reddit. Cada mensagem é rotulada com metadados. A tarefa é prever o id de sua mensagem pai no thread correspondente. Cada registro contém uma lista de mensagens de um thread. Registros duplicados e corrompidos são removidos do conjunto de dados.
As características são:
- id - id da mensagem
- texto - texto da mensagem
- autor - autor da mensagem
- created_utc - carimbo de data/hora UTC da mensagem
- link_id - id do post ao qual o comentário se refere
Alvo:
parent_id - id da mensagem pai no thread atual
Página inicial : https://github.com/henghuiz/MaskedHierarchicalTransformer
Código -fonte:
tfds.datasets.reddit_disentanglement.Builder
Versões :
-
2.0.0
(padrão): sem notas de versão.
-
Tamanho do download :
Unknown size
Tamanho do conjunto de dados :
Unknown size
Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em
download_config.manual_dir
(o padrão é~/tensorflow_datasets/downloads/manual/
):
Baixe https://github.com/henghuiz/MaskedHierarchicalTransformer, descompacte raw_data.zip e execute generate_dataset.py com suas credenciais reddit api. Em seguida, coloque train.csv, val.csv e test.csv do diretório de saída na pasta manual.Armazenado em cache automaticamente ( documentação ): Desconhecido
Divisões :
Dividir | Exemplos |
---|
- Estrutura de recursos :
FeaturesDict({
'thread': Sequence({
'author': Text(shape=(), dtype=string),
'created_utc': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'link_id': Text(shape=(), dtype=string),
'parent_id': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
}),
})
- Documentação do recurso:
Funcionalidade | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
fio | Seqüência | |||
tópico/autor | Texto | fragmento | ||
thread/criado_utc | Texto | fragmento | ||
tópico/id | Texto | fragmento | ||
tópico/link_id | Texto | fragmento | ||
thread/parent_id | Texto | fragmento | ||
tópico/texto | Texto | fragmento |
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não compatível.
Exemplos ( tfds.as_dataframe ): Ausente.
Citação :
@article{zhu2019did,
title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
journal={arXiv preprint arXiv:1911.10666},
year={2019}
}