wikihow

  • Descrição :

WikiHow é um novo conjunto de dados em grande escala usando a base de conhecimento on-line WikiHow ( http://www.wikihow.com/ ).

Existem dois recursos: - texto: o wikihow responde a textos. - título: linhas em negrito como resumo.

Existem duas versões distintas: - all: consiste na concatenação de todos os parágrafos como artigos e as linhas em negrito como resumos de referência. - set: composto por cada parágrafo e seu resumo.

Baixe "wikihowAll.csv" e "wikihowSep.csv" de https://github.com/mahnazkoupaee/WikiHow-Dataset e coloque-os na pasta manual https://www.tensorflow.org/datasets/api_docs/python/tfds/ download/DownloadConfig As divisões de treinamento/validação/teste são fornecidas pelos autores. O pré-processamento é aplicado para remover artigos curtos (comprimento do resumo < 0,75 comprimento do artigo) e limpar vírgulas extras.

@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

wikihow/all (configuração padrão)

  • Descrição da configuração : Use a concatenação de todos os parágrafos como artigos e as linhas em negrito como resumos de referência

  • Tamanho do conjunto de dados : 531.56 MiB

  • Divisões :

Dividir Exemplos
'test' 5.577
'train' 157.252
'validation' 5.599
  • Estrutura de recursos :
FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
título Texto corda
texto Texto corda
título Texto corda

wikihow/set

  • Descrição da configuração : use cada parágrafo e seu resumo.

  • Tamanho do conjunto de dados : 1.07 GiB

  • Divisões :

Dividir Exemplos
'test' 37.800
'train' 1.060.732
'validation' 37.932
  • Estrutura de recursos :
FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'overview': Text(shape=(), dtype=string),
    'sectionLabel': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
título Texto corda
visão global Texto corda
sectionLabel Texto corda
texto Texto corda
título Texto corda