- opis :
WikiHow to nowy zbiór danych na dużą skalę korzystający z internetowej bazy wiedzy WikiHow ( http://www.wikihow.com/ ).
Istnieją dwie funkcje: - tekst: wikihow odpowiada na teksty. - nagłówek: pogrubione linie jako podsumowanie.
Istnieją dwie oddzielne wersje: - wszystkie: składające się z konkatenacji wszystkich akapitów jako artykułów i pogrubionych linii jako streszczeń referencyjnych. - wrzesień: składający się z każdego akapitu i jego podsumowania.
Pobierz „wikihowAll.csv” i „wikihowSep.csv” z https://github.com/mahnazkoupaee/WikiHow-Dataset i umieść je w folderze manual https://www.tensorflow.org/datasets/api_docs/python/tfds/ download/DownloadConfig Podziały pociągu/walidacji/testu są dostarczane przez autorów. Przetwarzanie wstępne jest stosowane w celu usunięcia krótkich artykułów (długość streszczenia < 0,75 długości artykułu) i usunięcia dodatkowych przecinków.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://github.com/mahnazkoupaee/WikiHow-Dataset
Kod źródłowy :
tfds.summarization.WikihowWersje :
-
1.2.0(domyślnie): Brak informacji o wersji.
-
Rozmiar pliku do pobrania :
5.21 MiBInstrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do katalogu
download_config.manual_dir(domyślnie~/tensorflow_datasets/downloads/manual/):
Linki do plików można znaleźć na https://github.com/mahnazkoupaee/WikiHow-Dataset Proszę pobrać zarówno wikihowAll.csv, jak i wikihowSep.csv.Automatyczne buforowanie ( dokumentacja ): Nie
Nadzorowane klucze (Zobacz
as_superviseddoc ):('text', 'headline')Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@misc{koupaee2018wikihow,
title={WikiHow: A Large Scale Text Summarization Dataset},
author={Mahnaz Koupaee and William Yang Wang},
year={2018},
eprint={1810.09305},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
wikihow/all (domyślna konfiguracja)
Opis konfiguracji : użyj konkatenacji wszystkich akapitów jako artykułów i pogrubionych linii jako podsumowań materiałów referencyjnych
Rozmiar zbioru danych :
531.56 MiBPodziały :
| Rozdzielać | Przykłady |
|---|---|
'test' | 5577 |
'train' | 157252 |
'validation' | 5599 |
- Struktura funkcji :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
| Funkcja | Klasa | Kształt | Typ D | Opis |
|---|---|---|---|---|
| FunkcjeDict | ||||
| nagłówek | Tekst | strunowy | ||
| tekst | Tekst | strunowy | ||
| tytuł | Tekst | strunowy |
- Przykłady ( tfds.as_dataframe ):
wikihow/wrz
Opis konfiguracji : użyj każdego akapitu i jego podsumowania.
Rozmiar zestawu danych :
1.07 GiBPodziały :
| Rozdzielać | Przykłady |
|---|---|
'test' | 37 800 |
'train' | 1 060 732 |
'validation' | 37 932 |
- Struktura funkcji :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'overview': Text(shape=(), dtype=string),
'sectionLabel': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
| Funkcja | Klasa | Kształt | Typ D | Opis |
|---|---|---|---|---|
| FunkcjeDict | ||||
| nagłówek | Tekst | strunowy | ||
| Przegląd | Tekst | strunowy | ||
| sekcjaEtykieta | Tekst | strunowy | ||
| tekst | Tekst | strunowy | ||
| tytuł | Tekst | strunowy |
- Przykłady ( tfds.as_dataframe ):