reddit_tifu

  • Descrição :

Conjunto de dados Reddit, onde TIFU denota o nome do subbreddit /r/tifu. Conforme definido na publicação, o estilo "curto" usa o título como resumo e o "longo" usa tldr como resumo.

Os recursos incluem:

  • documento: postar texto sem tldr.
  • tldr: linha tldr.
  • title: título aparado sem tldr.
  • ups: votos positivos.
  • pontuação: pontuação.
  • num_comments: número de comentários.
  • upvote_ratio: proporção de votos positivos.

  • Documentação Adicional : Explore em Papers With Code

  • Página inicial : https://github.com/ctr4si/MMN

  • Código -fonte: tfds.datasets.reddit_tifu.Builder

  • Versões :

    • 1.1.0 : Remova documentos vazios e strings de resumo.
    • 1.1.1 : Adicione as divisões train, dev e test (80/10/10) que são usadas no PEGASUS ( https://arxiv.org/abs/1912.08777 ) em uma configuração separada. Eles foram criados aleatoriamente usando a função tfds split e estão sendo lançados para garantir que os resultados no Reddit Tifu Long sejam reproduzíveis e comparáveis. Adicione também id aos pontos de dados.
    • 1.1.2 (padrão): Splits corrigidos carregados.
  • Estrutura de recursos :

FeaturesDict({
    'documents': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'num_comments': float32,
    'score': float32,
    'title': Text(shape=(), dtype=string),
    'tldr': Text(shape=(), dtype=string),
    'ups': float32,
    'upvote_ratio': float32,
})
  • Documentação do recurso:
Funcionalidade Aula Forma Tipo D Descrição
RecursosDict
documentos Texto fragmento
Eu iria Texto fragmento
num_comments tensor float32
pontuação tensor float32
título Texto fragmento
tldr Texto fragmento
ups tensor float32
upvote_ratio tensor float32
@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu/short (configuração padrão)

  • Descrição da configuração : usando o título como resumo.

  • Tamanho do download : 639.54 MiB

  • Tamanho do conjunto de dados : 141.46 MiB

  • Armazenado em cache automaticamente ( documentação ): Somente quando shuffle_files=False (train)

  • Divisões :

Dividir Exemplos
'train' 79.740

reddit_tifu/long

  • Descrição da configuração : Usando TLDR como resumo.

  • Tamanho do download : 639.54 MiB

  • Tamanho do conjunto de dados : 93.10 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'train' 42.139

reddit_tifu/long_split

  • Descrição da configuração : usando TLDR como resumo e divisões de treinamento/teste/desenvolvimento de retorno.

  • Tamanho do download : 639.94 MiB

  • Tamanho do conjunto de dados : 93.10 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'test' 4.214
'train' 33.711
'validation' 4.214