- Descrição :
WikiHow é um novo conjunto de dados em grande escala usando a base de conhecimento on-line WikiHow ( http://www.wikihow.com/ ).
Existem dois recursos: - texto: o wikihow responde a textos. - título: linhas em negrito como resumo.
Existem duas versões distintas: - all: consiste na concatenação de todos os parágrafos como artigos e as linhas em negrito como resumos de referência. - set: composto por cada parágrafo e seu resumo.
Baixe "wikihowAll.csv" e "wikihowSep.csv" de https://github.com/mahnazkoupaee/WikiHow-Dataset e coloque-os na pasta manual https://www.tensorflow.org/datasets/api_docs/python/tfds/ download/DownloadConfig As divisões de treinamento/validação/teste são fornecidas pelos autores. O pré-processamento é aplicado para remover artigos curtos (comprimento do resumo < 0,75 comprimento do artigo) e limpar vírgulas extras.
Documentação Adicional : Explore em Papers With Code
Página inicial : https://github.com/mahnazkoupaee/WikiHow-Dataset
Código -fonte:
tfds.summarization.Wikihow
Versões :
-
1.2.0
(padrão): sem notas de versão.
-
Tamanho do download :
5.21 MiB
Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em
download_config.manual_dir
(o padrão é~/tensorflow_datasets/downloads/manual/
):
Links para arquivos podem ser encontrados em https://github.com/mahnazkoupaee/WikiHow-Dataset Faça o download de wikihowAll.csv e wikihowSep.csv.Armazenado em cache automaticamente ( documentação ): Não
Chaves supervisionadas (Consulte
as_supervised
doc ):('text', 'headline')
Figura ( tfds.show_examples ): Não suportado.
Citação :
@misc{koupaee2018wikihow,
title={WikiHow: A Large Scale Text Summarization Dataset},
author={Mahnaz Koupaee and William Yang Wang},
year={2018},
eprint={1810.09305},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
wikihow/all (configuração padrão)
Descrição da configuração : Use a concatenação de todos os parágrafos como artigos e as linhas em negrito como resumos de referência
Tamanho do conjunto de dados :
531.56 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 5.577 |
'train' | 157.252 |
'validation' | 5.599 |
- Estrutura de recursos :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
título | Texto | corda | ||
texto | Texto | corda | ||
título | Texto | corda |
- Exemplos ( tfds.as_dataframe ):
wikihow/set
Descrição da configuração : use cada parágrafo e seu resumo.
Tamanho do conjunto de dados :
1.07 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 37.800 |
'train' | 1.060.732 |
'validation' | 37.932 |
- Estrutura de recursos :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'overview': Text(shape=(), dtype=string),
'sectionLabel': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
título | Texto | corda | ||
visão global | Texto | corda | ||
sectionLabel | Texto | corda | ||
texto | Texto | corda | ||
título | Texto | corda |
- Exemplos ( tfds.as_dataframe ):