paws_x_wiki

  • Opis :

Ten zbiór danych zawiera 23 659 par ewaluacyjnych PAWS przetłumaczonych przez człowieka i 296 406 par szkoleniowych przetłumaczonych maszynowo w sześciu typologicznie różnych językach:

  • Francuski
  • hiszpański
  • Niemiecki
  • chiński
  • język japoński
  • koreański

Więcej informacji można znaleźć w towarzyszącym dokumencie: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification na https://arxiv.org/abs/1908.11828

Podobnie jak w PAWS Dataset, przykłady są podzielone na sekcje Train/Dev/Test. Wszystkie pliki są w formacie tsv z czterema kolumnami:

id Unikalny identyfikator dla każdej pary zdanie1 Pierwsze zdanie2 Drugie zdanie (hałaśliwe_)etykieta (hałaśliwe) Etykieta dla każdej pary

Każda etykieta ma dwie możliwe wartości: 0 oznacza, że ​​para ma inne znaczenie, a 1 oznacza, że ​​para jest parafrazą.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
etykieta Etykieta klasy tf.int64
zdanie1 Tekst tf.string
zdanie2 Tekst tf.string
@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki/de (domyślna konfiguracja)

  • Opis konfiguracji : przetłumaczone na de

  • Rozmiar zestawu danych : 15.27 MiB

  • Dzieli :

Rozdzielać Przykłady
'test' 2000
'train' 49,380
'validation' 2000

paws_x_wiki/pl

  • Opis konfiguracji : przetłumaczone na en

  • Rozmiar zestawu danych : 14.59 MiB

  • Dzieli :

Rozdzielać Przykłady
'test' 2000
'train' 49,175
'validation' 2000

paws_x_wiki/es

  • Opis konfiguracji : przetłumaczone na es

  • Rozmiar zestawu danych : 15.27 MiB

  • Dzieli :

Rozdzielać Przykłady
'test' 2000
'train' 49,401
'validation' 1961

paws_x_wiki/fr

  • Opis konfiguracji : przetłumaczone na fr

  • Rozmiar zestawu danych : 15.79 MiB

  • Dzieli :

Rozdzielać Przykłady
'test' 2000
'train' 49 399
'validation' 1988

paws_x_wiki/ja

  • Opis konfiguracji : przetłumaczone na ja

  • Rozmiar zbioru danych : 17.77 MiB

  • Dzieli :

Rozdzielać Przykłady
'test' 2000
'train' 49,401
'validation' 2000

paws_x_wiki/ko

  • Opis konfiguracji : przetłumaczone na ko

  • Rozmiar zestawu danych : 16.42 MiB

  • Dzieli :

Rozdzielać Przykłady
'test' 1999
'train' 49 164
'validation' 2000

paws_x_wiki/zh

  • Opis konfiguracji : przetłumaczone na zh

  • Rozmiar zbioru danych : 13.20 MiB

  • Dzieli :

Rozdzielać Przykłady
'test' 2000
'train' 49,401
'validation' 2000