- Descriptif :
WikiHow est un nouvel ensemble de données à grande échelle utilisant la base de connaissances en ligne WikiHow ( http://www.wikihow.com/ ).
Il y a deux fonctionnalités : - texte : wikihow répond aux textes. - titre : lignes en gras comme résumé.
Il existe deux versions distinctes : - toutes : constituées de la concaténation de tous les paragraphes comme les articles et des lignes en gras comme les résumés de référence. - sep : composé de chaque paragraphe et de son résumé.
Téléchargez "wikihowAll.csv" et "wikihowSep.csv" depuis https://github.com/mahnazkoupaee/WikiHow-Dataset et placez-les dans le dossier manuel https://www.tensorflow.org/datasets/api_docs/python/tfds/ download/DownloadConfig Train/validation/test splits sont fournis par les auteurs. Le prétraitement est appliqué pour supprimer les articles courts (longueur du résumé < 0,75 longueur de l'article) et nettoyer les virgules supplémentaires.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/mahnazkoupaee/WikiHow-Dataset
Code source :
tfds.summarization.Wikihow
Versions :
-
1.2.0
(par défaut) : aucune note de version.
-
Taille du téléchargement :
5.21 MiB
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans
download_config.manual_dir
(par défaut~/tensorflow_datasets/downloads/manual/
) :
Les liens vers les fichiers peuvent être trouvés sur https://github.com/mahnazkoupaee/WikiHow-Dataset Veuillez télécharger à la fois wikihowAll.csv et wikihowSep.csv.Mise en cache automatique ( documentation ): Non
Clés supervisées (Voir
as_supervised
doc ):('text', 'headline')
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@misc{koupaee2018wikihow,
title={WikiHow: A Large Scale Text Summarization Dataset},
author={Mahnaz Koupaee and William Yang Wang},
year={2018},
eprint={1810.09305},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
wikihow/all (configuration par défaut)
Description de la configuration : utilisez la concaténation de tous les paragraphes comme articles et les lignes en gras comme résumés de référence
Taille du jeu de données :
531.56 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 5 577 |
'train' | 157 252 |
'validation' | 5 599 |
- Structure des fonctionnalités :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
gros titre | Texte | chaîne de caractères | ||
texte | Texte | chaîne de caractères | ||
Titre | Texte | chaîne de caractères |
- Exemples ( tfds.as_dataframe ):
wikihow/sep
Description de la configuration : utilisez chaque paragraphe et son résumé.
Taille du jeu de données :
1.07 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 37 800 |
'train' | 1 060 732 |
'validation' | 37 932 |
- Structure des fonctionnalités :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'overview': Text(shape=(), dtype=string),
'sectionLabel': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
gros titre | Texte | chaîne de caractères | ||
Aperçu | Texte | chaîne de caractères | ||
sectionLabel | Texte | chaîne de caractères | ||
texte | Texte | chaîne de caractères | ||
Titre | Texte | chaîne de caractères |
- Exemples ( tfds.as_dataframe ):