TFDS obsługuje teraz format Croissant 🥐 ! Przeczytaj dokumentację , aby dowiedzieć się więcej.

Ta strona została przetłumaczona przez Cloud Translation API.

wiki_auto

opis :

WikiAuto zapewnia zestaw dopasowanych zdań z angielskiej Wikipedii i prostej angielskiej Wikipedii jako źródło do szkolenia systemów upraszczania zdań. Autorzy najpierw pozyskali zestaw ręcznych dopasowań między zdaniami w podzbiorze prostej angielskiej Wikipedii i ich odpowiednimi wersjami w angielskiej Wikipedii (odpowiada to manual konfiguracji), a następnie wyszkolili neuronowy system CRF, aby przewidywał te wyrównania. Wyszkolony model został następnie zastosowany do innych artykułów w prostej angielskiej Wikipedii z angielskim odpowiednikiem, aby utworzyć większy korpus wyrównanych zdań (odpowiadających tutaj konfiguracjom auto , auto_acl , auto_full_no_split i auto_full_with_split ).

Strona główna : https://github.com/chaojiang06/wiki-auto
Kod źródłowy : tfds.text_simplification.wiki_auto.WikiAuto
Wersje :
- 1.0.0 (domyślnie): Wersja początkowa.
Klucze nadzorowane (Zobacz dokument as_supervised ): None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :

@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto/manual (domyślna konfiguracja)

Opis konfiguracji: Zestaw 10 000 par zdań z Wikipedii ułożonych przez pracowników społecznościowych.
Rozmiar pliku do pobrania : 53.47 MiB
Rozmiar zestawu danych : 76.87 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :

Rozdzielać	Przykłady
`'dev'`	73249
`'test'`	118074

Struktura funkcji :

FeaturesDict({
    'GLEU-score': float64,
    'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'normal_sentence': Text(shape=(), dtype=string),
    'normal_sentence_id': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
    'simple_sentence_id': Text(shape=(), dtype=string),
})

Dokumentacja funkcji :

Funkcja	Klasa	Typ D
	FunkcjeDict
Wynik GLEU	Napinacz	pływak64
etykieta_wyrównania	Etykieta klasy	int64
normalne_zdanie	Tekst	strunowy
normal_sentence_id	Tekst	strunowy
proste zdanie	Tekst	strunowy
simple_sentence_id	Tekst	strunowy

Przykłady ( tfds.as_dataframe ):

wiki_auto/auto_acl

Opis konfiguracji: pary zdań dopasowane do uczenia systemu ACL2020.
Rozmiar pliku do pobrania : 112.60 MiB
Rozmiar zestawu danych : 138.83 MiB
Automatyczne buforowanie ( dokumentacja ): Tylko wtedy, gdy shuffle_files=False (pełne)
Podziały :

Rozdzielać	Przykłady
`'full'`	488332

Struktura funkcji :

FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})

Dokumentacja funkcji :

Funkcja	Klasa	Typ D
	FunkcjeDict
normalne_zdanie	Tekst	strunowy
proste zdanie	Tekst	strunowy

Przykłady ( tfds.as_dataframe ):

wiki_auto/auto_full_no_split

Opis konfiguracji : Wszystkie automatycznie dopasowane pary zdań bez dzielenia zdań.
Rozmiar pliku do pobrania : 135.02 MiB
Rozmiar zestawu danych : 166.78 MiB
Automatyczne buforowanie ( dokumentacja ): Tylko wtedy, gdy shuffle_files=False (pełne)
Podziały :

Rozdzielać	Przykłady
`'full'`	591 994

Struktura funkcji :

FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})

Dokumentacja funkcji :

Funkcja	Klasa	Typ D
	FunkcjeDict
normalne_zdanie	Tekst	strunowy
proste zdanie	Tekst	strunowy

Przykłady ( tfds.as_dataframe ):

wiki_auto/auto_full_with_split

Opis konfiguracji : Wszystkie automatycznie dopasowane pary zdań z podziałem zdań.
Rozmiar pliku do pobrania : 115.09 MiB
Rozmiar zestawu danych : 141.20 MiB
Automatyczne buforowanie ( dokumentacja ): Tylko wtedy, gdy shuffle_files=False (pełne)
Podziały :

Rozdzielać	Przykłady
`'full'`	483801

Struktura funkcji :

FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})

Dokumentacja funkcji :

Funkcja	Klasa	Typ D
	FunkcjeDict
normalne_zdanie	Tekst	strunowy
proste zdanie	Tekst	strunowy

Przykłady ( tfds.as_dataframe ):

wiki_auto/auto

Opis konfiguracji: duży zestaw automatycznie dopasowanych par zdań.
Rozmiar pliku do pobrania : 2.01 GiB
Rozmiar zestawu danych : 1.76 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :

Rozdzielać	Przykłady
`'part_1'`	125059
`'part_2'`	13036

Struktura funkcji :

FeaturesDict({
    'example_id': Text(shape=(), dtype=string),
    'normal': FeaturesDict({
        'normal_article_content': Sequence({
            'normal_sentence': Text(shape=(), dtype=string),
            'normal_sentence_id': Text(shape=(), dtype=string),
        }),
        'normal_article_id': int32,
        'normal_article_title': Text(shape=(), dtype=string),
        'normal_article_url': Text(shape=(), dtype=string),
    }),
    'paragraph_alignment': Sequence({
        'normal_paragraph_id': Text(shape=(), dtype=string),
        'simple_paragraph_id': Text(shape=(), dtype=string),
    }),
    'sentence_alignment': Sequence({
        'normal_sentence_id': Text(shape=(), dtype=string),
        'simple_sentence_id': Text(shape=(), dtype=string),
    }),
    'simple': FeaturesDict({
        'simple_article_content': Sequence({
            'simple_sentence': Text(shape=(), dtype=string),
            'simple_sentence_id': Text(shape=(), dtype=string),
        }),
        'simple_article_id': int32,
        'simple_article_title': Text(shape=(), dtype=string),
        'simple_article_url': Text(shape=(), dtype=string),
    }),
})

Dokumentacja funkcji :

Funkcja	Klasa	Typ D
	FunkcjeDict
identyfikator_przykładu	Tekst	strunowy
normalna	FunkcjeDict
normalny/normalny_artykuł_zawartość	Sekwencja
normalny/normalny_artykuł_zawartość/normalne_zdanie	Tekst	strunowy
normal/normal_article_content/normal_sentence_id	Tekst	strunowy
normalny/normalny_identyfikator_artykułu	Napinacz	int32
normalny/normalny_tytuł_artykułu	Tekst	strunowy
normalny/normalny_url_artykułu	Tekst	strunowy
wyrównanie_paragrafu	Sekwencja
wyrównanie_paragrafu/identyfikator_normalnego_akapitu	Tekst	strunowy
akapit_wyrównanie/simple_paragraf_id	Tekst	strunowy
zdanie_wyrównanie	Sekwencja
zdanie_wyrównanie/normalne_zdanie_id	Tekst	strunowy
zdanie_wyrównanie/simple_sentence_id	Tekst	strunowy
prosty	FunkcjeDict
prosty/prosty_artykuł_zawartość	Sekwencja
prosty/prosty_artykuł_zawartość/proste_zdanie	Tekst	strunowy
simple/simple_article_content/simple_sentence_id	Tekst	strunowy
prosty/prosty_identyfikator_artykułu	Napinacz	int32
prosty/prosty_tytuł_artykułu	Tekst	strunowy
prosty/prosty_url_artykułu	Tekst	strunowy

Przykłady ( tfds.as_dataframe ):

wiki_auto Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.