reddit_disentanglement

opis :

Ten zbiór danych zawiera ~3 mln wiadomości z reddita. Każda wiadomość jest oznaczona metadanymi. Zadanie polega na przewidzeniu identyfikatora wiadomości nadrzędnej w odpowiednim wątku. Każdy rekord zawiera listę wiadomości z jednego wątku. Zduplikowane i uszkodzone rekordy są usuwane ze zbioru danych.

Funkcje to:

id - identyfikator wiadomości
tekst - tekst wiadomości
autor - autor wiadomości
created_utc - znacznik czasu UTC wiadomości
link_id - id posta, którego dotyczy komentarz

Cel:

parent_id - id nadrzędnej wiadomości w bieżącym wątku
Strona główna : https://github.com/henghuiz/MaskedHierarchicalTransformer
Kod źródłowy : tfds.datasets.reddit_disentanglement.Builder
Wersje :
- 2.0.0 (domyślnie): Brak informacji o wersji.
Rozmiar pliku do pobrania : Unknown size
Rozmiar zbioru danych : Unknown size
Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do katalogu download_config.manual_dir (domyślnie ~/tensorflow_datasets/downloads/manual/ ):
Pobierz https://github.com/henghuiz/MaskedHierarchicalTransformer, zdekompresuj plik raw_data.zip i uruchom generate_dataset.py ze swoimi poświadczeniami api reddit. Następnie umieść train.csv, val.csv i test.csv z katalogu wyjściowego w folderze podręcznika.
Automatyczne buforowanie ( dokumentacja ): Nieznane
Podziały :

Podział	Przykłady

Struktura funkcji :

FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=string),
        'created_utc': Text(shape=(), dtype=string),
        'id': Text(shape=(), dtype=string),
        'link_id': Text(shape=(), dtype=string),
        'parent_id': Text(shape=(), dtype=string),
        'text': Text(shape=(), dtype=string),
    }),
})

Dokumentacja funkcji :

Funkcja	Klasa	Typ D
	FunkcjeDict
wątek	Sekwencja
wątek/autor	Tekst	strunowy
wątek/utworzony_utc	Tekst	strunowy
wątek/identyfikator	Tekst	strunowy
wątek/identyfikator_linku	Tekst	strunowy
wątek/identyfikator_rodzica	Tekst	strunowy
wątek/tekst	Tekst	strunowy

Klucze nadzorowane (Zobacz dokument as_supervised ): None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ): Brak.
Cytat :

@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}