- opis :
Ten zestaw danych zawiera 23 659 par ewaluacyjnych PAWS przetłumaczonych przez człowieka i 296 406 par szkoleniowych przetłumaczonych maszynowo w sześciu typologicznie różnych językach:
- Francuski
- hiszpański
- Niemiecki
- chiński
- język japoński
- koreański
Więcej informacji można znaleźć w towarzyszącym dokumencie: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification na stronie https://arxiv.org/abs/1908.11828
Podobnie jak PAWS Dataset, przykłady są podzielone na sekcje Train/Dev/Test. Wszystkie pliki są w formacie tsv z czterema kolumnami:
-
id
: unikalny identyfikator dla każdej pary. -
sentence1
: Pierwsze zdanie. -
sentence2
2 : Drugie zdanie. -
(noisy_)label
: (Noisy) etykieta dla każdej pary.
Każda etykieta ma dwie możliwe wartości: 0 wskazuje, że para ma inne znaczenie, a 1 oznacza, że para jest parafrazą.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://github.com/google-research-datasets/paws/tree/master/pawsx
Kod źródłowy :
tfds.datasets.paws_x_wiki.Builder
Wersje :
-
1.0.0
(domyślnie): Brak informacji o wersji.
-
Rozmiar pliku do pobrania :
28.88 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Struktura funkcji :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształtować się | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
etykieta | Etykieta klasy | int64 | ||
zdanie 1 | Tekst | strunowy | ||
zdanie2 | Tekst | strunowy |
Klucze nadzorowane (Zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@InProceedings{pawsx2019emnlp,
title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
booktitle = {Proc. of EMNLP},
year = {2019}
}
paws_x_wiki/de (domyślna konfiguracja)
Opis konfiguracji : Przetłumaczono na de
Rozmiar zestawu danych :
15.27 MiB
Podziały :
Podział | Przykłady |
---|---|
'test' | 2000 |
'train' | 49380 |
'validation' | 2000 |
- Przykłady ( tfds.as_dataframe ):
paws_x_wiki/pl
Opis konfiguracji : Przetłumaczono na en
Rozmiar zestawu danych :
14.59 MiB
Podziały :
Podział | Przykłady |
---|---|
'test' | 2000 |
'train' | 49175 |
'validation' | 2000 |
- Przykłady ( tfds.as_dataframe ):
paws_x_wiki/es
Opis konfiguracji : Przetłumaczono na es
Rozmiar zestawu danych :
15.27 MiB
Podziały :
Podział | Przykłady |
---|---|
'test' | 2000 |
'train' | 49401 |
'validation' | 1961 |
- Przykłady ( tfds.as_dataframe ):
paws_x_wiki/fr
Opis konfiguracji : Przetłumaczono na fr
Rozmiar zestawu danych :
15.79 MiB
Podziały :
Podział | Przykłady |
---|---|
'test' | 2000 |
'train' | 49399 |
'validation' | 1988 |
- Przykłady ( tfds.as_dataframe ):
paws_x_wiki/ja
Opis konfiguracji : Przetłumaczono na ja
Rozmiar zestawu danych :
17.77 MiB
Podziały :
Podział | Przykłady |
---|---|
'test' | 2000 |
'train' | 49401 |
'validation' | 2000 |
- Przykłady ( tfds.as_dataframe ):
paws_x_wiki/ko
Opis konfiguracji : Przetłumaczone na ko
Rozmiar zestawu danych :
16.42 MiB
Podziały :
Podział | Przykłady |
---|---|
'test' | 1999 |
'train' | 49164 |
'validation' | 2000 |
- Przykłady ( tfds.as_dataframe ):
paws_x_wiki/zh
Opis konfiguracji : Przetłumaczono na zh
Rozmiar zestawu danych :
13.20 MiB
Podziały :
Podział | Przykłady |
---|---|
'test' | 2000 |
'train' | 49401 |
'validation' | 2000 |
- Przykłady ( tfds.as_dataframe ):