- Descrição :
Conjunto de dados Reddit, onde TIFU denota o nome do subbreddit /r/tifu. Conforme definido na publicação, o estilo "curto" usa o título como resumo e o "longo" usa tldr como resumo.
Os recursos incluem:
- documento: postar texto sem tldr.
- tldr: linha tldr.
- title: título aparado sem tldr.
- ups: votos positivos.
- pontuação: pontuação.
- num_comments: número de comentários.
upvote_ratio: proporção de votos positivos.
Documentação Adicional : Explore em Papers With Code
Página inicial : https://github.com/ctr4si/MMN
Código -fonte:
tfds.datasets.reddit_tifu.Builder
Versões :
-
1.1.0
: Remova documentos vazios e strings de resumo. -
1.1.1
: Adicione as divisões train, dev e test (80/10/10) que são usadas no PEGASUS ( https://arxiv.org/abs/1912.08777 ) em uma configuração separada. Eles foram criados aleatoriamente usando a função tfds split e estão sendo lançados para garantir que os resultados no Reddit Tifu Long sejam reproduzíveis e comparáveis. Adicione tambémid
aos pontos de dados. -
1.1.2
(padrão): Splits corrigidos carregados.
-
Estrutura de recursos :
FeaturesDict({
'documents': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'num_comments': float32,
'score': float32,
'title': Text(shape=(), dtype=string),
'tldr': Text(shape=(), dtype=string),
'ups': float32,
'upvote_ratio': float32,
})
- Documentação do recurso:
Funcionalidade | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
documentos | Texto | fragmento | ||
Eu iria | Texto | fragmento | ||
num_comments | tensor | float32 | ||
pontuação | tensor | float32 | ||
título | Texto | fragmento | ||
tldr | Texto | fragmento | ||
ups | tensor | float32 | ||
upvote_ratio | tensor | float32 |
Figura ( tfds.show_examples ): Não compatível.
Citação :
@misc{kim2018abstractive,
title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
year={2018},
eprint={1811.00783},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
reddit_tifu/short (configuração padrão)
Descrição da configuração : usando o título como resumo.
Tamanho do download :
639.54 MiB
Tamanho do conjunto de dados :
141.46 MiB
Armazenado em cache automaticamente ( documentação ): Somente quando
shuffle_files=False
(train)Divisões :
Dividir | Exemplos |
---|---|
'train' | 79.740 |
Chaves supervisionadas (consulte
as_supervised
doc ):('documents', 'title')
Exemplos ( tfds.as_dataframe ):
reddit_tifu/long
Descrição da configuração : Usando TLDR como resumo.
Tamanho do download :
639.54 MiB
Tamanho do conjunto de dados :
93.10 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 42.139 |
Chaves supervisionadas (Consulte
as_supervised
doc ):('documents', 'tldr')
Exemplos ( tfds.as_dataframe ):
reddit_tifu/long_split
Descrição da configuração : usando TLDR como resumo e divisões de treinamento/teste/desenvolvimento de retorno.
Tamanho do download :
639.94 MiB
Tamanho do conjunto de dados :
93.10 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 4.214 |
'train' | 33.711 |
'validation' | 4.214 |
Chaves supervisionadas (Consulte
as_supervised
doc ):('documents', 'tldr')
Exemplos ( tfds.as_dataframe ):