Aprenda o que há de mais recente em aprendizado de máquina, IA generativa e muito mais no WiML Symposium 2023 Registre-se

Esta página foi traduzida pela API Cloud Translation.

reddit_tifu

Descrição :

Conjunto de dados Reddit, onde TIFU denota o nome do subbreddit /r/tifu. Conforme definido na publicação, o estilo "curto" usa o título como resumo e o "longo" usa tldr como resumo.

Os recursos incluem:

documento: postar texto sem tldr.
tldr: linha tldr.
title: título aparado sem tldr.
ups: votos positivos.
pontuação: pontuação.
num_comments: número de comentários.
upvote_ratio: proporção de votos positivos.
Documentação Adicional : Explore em Papers With Code
Página inicial : https://github.com/ctr4si/MMN
Código -fonte: tfds.datasets.reddit_tifu.Builder
Versões :
- 1.1.0 : Remova documentos vazios e strings de resumo.
- 1.1.1 : Adicione as divisões train, dev e test (80/10/10) que são usadas no PEGASUS ( https://arxiv.org/abs/1912.08777 ) em uma configuração separada. Eles foram criados aleatoriamente usando a função tfds split e estão sendo lançados para garantir que os resultados no Reddit Tifu Long sejam reproduzíveis e comparáveis. Adicione também id aos pontos de dados.
- 1.1.2 (padrão): Splits corrigidos carregados.
Estrutura de recursos :

FeaturesDict({
    'documents': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'num_comments': float32,
    'score': float32,
    'title': Text(shape=(), dtype=string),
    'tldr': Text(shape=(), dtype=string),
    'ups': float32,
    'upvote_ratio': float32,
})

Documentação do recurso:

Funcionalidade	Aula	Tipo D
	RecursosDict
documentos	Texto	fragmento
Eu iria	Texto	fragmento
num_comments	tensor	float32
pontuação	tensor	float32
título	Texto	fragmento
tldr	Texto	fragmento
ups	tensor	float32
upvote_ratio	tensor	float32

Figura ( tfds.show_examples ): Não compatível.
Citação :

@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu/short (configuração padrão)

Descrição da configuração : usando o título como resumo.
Tamanho do download : 639.54 MiB
Tamanho do conjunto de dados : 141.46 MiB
Armazenado em cache automaticamente ( documentação ): Somente quando shuffle_files=False (train)
Divisões :

Dividir	Exemplos
`'train'`	79.740

Chaves supervisionadas (consulte as_supervised doc ): ('documents', 'title')
Exemplos ( tfds.as_dataframe ):

reddit_tifu/long

Descrição da configuração : Usando TLDR como resumo.
Tamanho do download : 639.54 MiB
Tamanho do conjunto de dados : 93.10 MiB
Cache automático ( documentação ): Sim
Divisões :

Dividir	Exemplos
`'train'`	42.139

Chaves supervisionadas (Consulte as_supervised doc ): ('documents', 'tldr')
Exemplos ( tfds.as_dataframe ):

reddit_tifu/long_split

Descrição da configuração : usando TLDR como resumo e divisões de treinamento/teste/desenvolvimento de retorno.
Tamanho do download : 639.94 MiB
Tamanho do conjunto de dados : 93.10 MiB
Cache automático ( documentação ): Sim
Divisões :

Dividir	Exemplos
`'test'`	4.214
`'train'`	33.711
`'validation'`	4.214

Chaves supervisionadas (Consulte as_supervised doc ): ('documents', 'tldr')
Exemplos ( tfds.as_dataframe ):

reddit_tifu Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

reddit_tifu/short (configuração padrão)

reddit_tifu/long

reddit_tifu/long_split

reddit_tifu