- opis :
Zbiór danych Reddit, gdzie TIFU oznacza nazwę subbreddit /r/tifu. Jak zdefiniowano w publikacji, styl „short” używa tytułu jako podsumowania, a „długi” używa tldr jako podsumowania.
Funkcje obejmują:
- dokument: tekst posta bez tldr.
- tldr: linia tldr.
- tytuł: przycięty tytuł bez tldr.
- plusy: plusy.
- wynik: wynik.
- num_comments: liczba komentarzy.
upvote_ratio: współczynnik poparcia.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://github.com/ctr4si/MMN
Kod źródłowy :
tfds.datasets.reddit_tifu.Builder
Wersje :
-
1.1.0
: Usuń pusty dokument i łańcuchy podsumowań. -
1.1.1
: Dodaj podziały na pociąg, tworzenie i testowanie (80/10/10), które są używane w PEGASUS ( https://arxiv.org/abs/1912.08777 ) w osobnej konfiguracji. Zostały one utworzone losowo przy użyciu funkcji podziału tfds i są udostępniane, aby zapewnić powtarzalność i porównywalność wyników na Reddit Tifu Long.Do punktów danych dodaj równieżid
. -
1.1.2
(domyślnie): przesłano poprawione podziały.
-
Struktura funkcji :
FeaturesDict({
'documents': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'num_comments': float32,
'score': float32,
'title': Text(shape=(), dtype=string),
'tldr': Text(shape=(), dtype=string),
'ups': float32,
'upvote_ratio': float32,
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształtować się | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
dokumenty | Tekst | strunowy | ||
ID | Tekst | strunowy | ||
liczba_komentarzy | Napinacz | pływak32 | ||
wynik | Napinacz | pływak32 | ||
tytuł | Tekst | strunowy | ||
tldr | Tekst | strunowy | ||
UPS | Napinacz | pływak32 | ||
upvote_ratio | Napinacz | pływak32 |
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@misc{kim2018abstractive,
title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
year={2018},
eprint={1811.00783},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
reddit_tifu/short (domyślna konfiguracja)
Opis konfiguracji : Używanie tytułu jako podsumowania.
Rozmiar pliku do pobrania :
639.54 MiB
Rozmiar zestawu danych :
141.46 MiB
Automatyczne buforowanie ( dokumentacja ): Tylko wtedy, gdy
shuffle_files=False
(pociąg)Podziały :
Podział | Przykłady |
---|---|
'train' | 79740 |
Klucze nadzorowane (Patrz
as_supervised
doc ):('documents', 'title')
Przykłady ( tfds.as_dataframe ):
reddit_tifu/long
Opis konfiguracji: Używanie TLDR jako podsumowania.
Rozmiar pliku do pobrania :
639.54 MiB
Rozmiar zestawu danych :
93.10 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Podział | Przykłady |
---|---|
'train' | 42139 |
Klucze nadzorowane (Patrz
as_supervised
doc ):('documents', 'tldr')
Przykłady ( tfds.as_dataframe ):
reddit_tifu/long_split
Opis konfiguracji: Używanie TLDR jako podsumowania i zwrotów podziałów pociąg/test/programista.
Rozmiar pliku do pobrania :
639.94 MiB
Rozmiar zestawu danych :
93.10 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Podział | Przykłady |
---|---|
'test' | 4214 |
'train' | 33711 |
'validation' | 4214 |
Klucze nadzorowane (Patrz
as_supervised
doc ):('documents', 'tldr')
Przykłady ( tfds.as_dataframe ):