- opis :
Ten korpus zawiera wstępnie przetworzone posty z zestawu danych Reddit. Zbiór danych składa się z 3 848 330 postów o średniej długości 270 słów dla treści i 28 słów dla podsumowania.
Funkcje obejmują ciągi znaków: autor, treść, znormalizowane ciało, treść, podsumowanie, subreddit, subreddit_id. Treść jest używana jako dokument, a podsumowanie jako podsumowanie.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://github.com/webis-de/webis-tldr-17-corpus
Kod źródłowy :
tfds.datasets.reddit.Builder
Wersje :
-
1.0.0
(domyślnie): Brak informacji o wersji.
-
Rozmiar pliku do pobrania :
2.93 GiB
Rozmiar zestawu danych :
18.09 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'train' | 3 848 330 |
- Struktura funkcji :
FeaturesDict({
'author': string,
'body': string,
'content': string,
'id': string,
'normalizedBody': string,
'subreddit': string,
'subreddit_id': string,
'summary': string,
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształtować się | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
autor | Napinacz | strunowy | ||
ciało | Napinacz | strunowy | ||
treść | Napinacz | strunowy | ||
ID | Napinacz | strunowy | ||
znormalizowane ciało | Napinacz | strunowy | ||
subreddit | Napinacz | strunowy | ||
subreddit_id | Napinacz | strunowy | ||
Podsumowanie | Napinacz | strunowy |
Klucze nadzorowane (Zobacz dokument
as_supervised
):('content', 'summary')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):
- Cytat :
@inproceedings{volske-etal-2017-tl,
title = "{TL};{DR}: Mining {R}eddit to Learn Automatic Summarization",
author = {V{\"o}lske, Michael and
Potthast, Martin and
Syed, Shahbaz and
Stein, Benno},
booktitle = "Proceedings of the Workshop on New Frontiers in Summarization",
month = sep,
year = "2017",
address = "Copenhagen, Denmark",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/W17-4508",
doi = "10.18653/v1/W17-4508",
pages = "59--63",
abstract = "Recent advances in automatic text summarization have used deep neural networks to generate high-quality abstractive summaries, but the performance of these models strongly depends on large amounts of suitable training data. We propose a new method for mining social media for author-provided summaries, taking advantage of the common practice of appending a {``}TL;DR{''} to long posts. A case study using a large Reddit crawl yields the Webis-TLDR-17 dataset, complementing existing corpora primarily from the news genre. Our technique is likely applicable to other social media sites and general web crawls.",
}