paws_x_wiki

opis :

Ten zestaw danych zawiera 23 659 par ewaluacyjnych PAWS przetłumaczonych przez człowieka i 296 406 par szkoleniowych przetłumaczonych maszynowo w sześciu typologicznie różnych językach:

Francuski
hiszpański
Niemiecki
chiński
język japoński
koreański

Więcej informacji można znaleźć w towarzyszącym dokumencie: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification na stronie https://arxiv.org/abs/1908.11828

Podobnie jak PAWS Dataset, przykłady są podzielone na sekcje Train/Dev/Test. Wszystkie pliki są w formacie tsv z czterema kolumnami:

id : unikalny identyfikator dla każdej pary.
sentence1 : Pierwsze zdanie.
sentence2 2 : Drugie zdanie.
(noisy_)label : (Noisy) etykieta dla każdej pary.

Każda etykieta ma dwie możliwe wartości: 0 wskazuje, że para ma inne znaczenie, a 1 oznacza, że para jest parafrazą.

Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://github.com/google-research-datasets/paws/tree/master/pawsx
Kod źródłowy : tfds.datasets.paws_x_wiki.Builder
Wersje :
- 1.0.0 (domyślnie): Brak informacji o wersji.
Rozmiar pliku do pobrania : 28.88 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Struktura funkcji :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})

Dokumentacja funkcji :

Funkcja	Klasa	Typ D
	FunkcjeDict
etykieta	Etykieta klasy	int64
zdanie 1	Tekst	strunowy
zdanie2	Tekst	strunowy

Klucze nadzorowane (Zobacz dokument as_supervised ): None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :

@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki/de (domyślna konfiguracja)

Opis konfiguracji : Przetłumaczono na de
Rozmiar zestawu danych : 15.27 MiB
Podziały :

Podział	Przykłady
`'test'`	2000
`'train'`	49380
`'validation'`	2000

Przykłady ( tfds.as_dataframe ):

paws_x_wiki/pl

Opis konfiguracji : Przetłumaczono na en
Rozmiar zestawu danych : 14.59 MiB
Podziały :

Podział	Przykłady
`'test'`	2000
`'train'`	49175
`'validation'`	2000

Przykłady ( tfds.as_dataframe ):

paws_x_wiki/es

Opis konfiguracji : Przetłumaczono na es
Rozmiar zestawu danych : 15.27 MiB
Podziały :

Podział	Przykłady
`'test'`	2000
`'train'`	49401
`'validation'`	1961

Przykłady ( tfds.as_dataframe ):

paws_x_wiki/fr

Opis konfiguracji : Przetłumaczono na fr
Rozmiar zestawu danych : 15.79 MiB
Podziały :

Podział	Przykłady
`'test'`	2000
`'train'`	49399
`'validation'`	1988

Przykłady ( tfds.as_dataframe ):

paws_x_wiki/ja

Opis konfiguracji : Przetłumaczono na ja
Rozmiar zestawu danych : 17.77 MiB
Podziały :

Podział	Przykłady
`'test'`	2000
`'train'`	49401
`'validation'`	2000

Przykłady ( tfds.as_dataframe ):

paws_x_wiki/ko

Opis konfiguracji : Przetłumaczone na ko
Rozmiar zestawu danych : 16.42 MiB
Podziały :

Podział	Przykłady
`'test'`	1999
`'train'`	49164
`'validation'`	2000

Przykłady ( tfds.as_dataframe ):

paws_x_wiki/zh

Opis konfiguracji : Przetłumaczono na zh
Rozmiar zestawu danych : 13.20 MiB
Podziały :

Podział	Przykłady
`'test'`	2000
`'train'`	49401
`'validation'`	2000

Przykłady ( tfds.as_dataframe ):

paws_x_wiki Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.