xquad

  • opis :

XQuAD (Cross-lingual Question Answering Dataset) to zestaw danych porównawczych do oceny wydajności odpowiedzi na pytania w różnych językach. Zbiór danych składa się z podzbioru 240 akapitów i 1190 par pytanie-odpowiedź z zestawu rozwojowego SQuAD v1.1 (Rajpurkar et al., 2016) wraz z ich profesjonalnymi tłumaczeniami na dziesięć języków: hiszpański, niemiecki, grecki, rosyjski, turecki , arabski, wietnamski, tajski, chiński i hindi. W rezultacie zestaw danych jest całkowicie równoległy w 11 językach. Aby uruchomić XQuAD w domyślnym ustawieniu zero-shot, użyj danych treningowych i walidacyjnych SQuAD v1.1 tutaj: https://www.tensorflow.org/datasets/catalog/squad

Uwzględniamy również podziały „translate-train”, „translate-dev” i „translate-test” dla każdego języka innego niż angielski z XTREME (Hu i in., 2020). Można ich użyć do uruchomienia XQuAD w ustawieniach „translate-train” lub „translate-test”.

FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
odpowiedzi Sekwencja
odpowiedzi/odpowiedź_start Napinacz int32
odpowiedzi/tekst Tekst strunowy
kontekst Tekst strunowy
ID Napinacz strunowy
pytanie Tekst strunowy
tytuł Tekst strunowy
@article{Artetxe:etal:2019,
      author    = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
      title     = {On the cross-lingual transferability of monolingual representations},
      journal   = {CoRR},
      volume    = {abs/1910.11856},
      year      = {2019},
      archivePrefix = {arXiv},
      eprint    = {1910.11856}
}

xquad/ar (domyślna konfiguracja)

  • Opis konfiguracji: Podział testu XQuAD „ar”, z przetłumaczonymi maszynowo podziałami translacji pociągu/tłumaczenia-dev/tłumaczenia-testu z XTREME (Hu i in., 2020).

  • Rozmiar pliku do pobrania : 420.97 MiB

  • Rozmiar zestawu danych : 134.83 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 1190
'translate-dev' 10541
'translate-test' 1151
'translate-train' 86787

xquad/de

  • Opis konfiguracji: Podział testu XQuAD „de”, z przetłumaczonymi maszynowo podziałami translacji pociągu/tłumaczenia-dev/tłumaczenia-testu z XTREME (Hu i in., 2020).

  • Rozmiar pliku do pobrania : 127.04 MiB

  • Rozmiar zestawu danych : 98.80 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 1190
'translate-dev' 10371
'translate-test' 1168
'translate-train' 82603

xquad/el

  • Opis konfiguracji: Podział testu XQuAD „el”, z przetłumaczonymi maszynowo podziałami translacji pociągu/tłumaczenia-dev/tłumaczenia-testu z XTREME (Hu i in., 2020).

  • Rozmiar pliku do pobrania : 499.40 MiB

  • Rozmiar zestawu danych : 157.90 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak (test, translate-dev, translate-test), Tylko wtedy, gdy shuffle_files=False (translate-train)

  • Podziały :

Rozdzielać Przykłady
'test' 1190
'translate-dev' 10100
'translate-test' 1182
'translate-train' 79946

xquad/es

  • Opis konfiguracji: Podział testu XQuAD „es”, z przetłumaczonymi maszynowo podziałami translacji pociągu/tłumaczenia-dev/tłumaczenia-testu z XTREME (Hu i in., 2020).

  • Rozmiar pliku do pobrania : 138.41 MiB

  • Rozmiar zestawu danych : 104.96 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 1190
'translate-dev' 10566
'translate-test' 1188
'translate-train' 87 488

xquad/cześć

  • Opis konfiguracji: Podział testu „hi” XQuAD, z przetłumaczonymi maszynowo podziałami translacji pociągu/tłumaczenia-dev/tłumaczenia-testu z XTREME (Hu i in., 2020).

  • Rozmiar pliku do pobrania : 472.23 MiB

  • Rozmiar zestawu danych : 207.85 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak (test, translate-dev, translate-test), Tylko wtedy, gdy shuffle_files=False (translate-train)

  • Podziały :

Rozdzielać Przykłady
'test' 1190
'translate-dev' 10536
'translate-test' 1184
'translate-train' 85804

xquad/ru

  • Opis konfiguracji: Podział testu XQuAD „ru”, z przetłumaczonymi maszynowo podziałami translacji pociągu/tłumaczenia-dev/tłumaczenia-testu z XTREME (Hu i in., 2020).

  • Rozmiar pliku do pobrania : 513.80 MiB

  • Rozmiar zestawu danych : 159.38 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak (test, translate-dev, translate-test), Tylko wtedy, gdy shuffle_files=False (translate-train)

  • Podziały :

Rozdzielać Przykłady
'test' 1190
'translate-dev' 10469
'translate-test' 1190
'translate-train' 84 869

xquad/th

  • Opis konfiguracji: XQuAD „th” test split, z przetłumaczonymi maszynowo podziałami translacji pociągu/translate-dev/translate-test z XTREME (Hu i in., 2020).

  • Rozmiar pliku do pobrania : 461.54 MiB

  • Rozmiar zbioru danych : 199.57 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak (test, translate-dev, translate-test), Tylko wtedy, gdy shuffle_files=False (translate-train)

  • Podziały :

Rozdzielać Przykłady
'test' 1190
'translate-dev' 10516
'translate-test' 1157
'translate-train' 85846

xquad/tr

  • Opis konfiguracji: Podział testu XQuAD „tr”, z przetłumaczonymi maszynowo podziałami translacji pociągu/tłumaczenia-dev/tłumaczenia-testu z XTREME (Hu i in., 2020).

  • Rozmiar pliku do pobrania : 151.08 MiB

  • Rozmiar zestawu danych : 97.56 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 1190
'translate-dev' 10535
'translate-test' 1112
'translate-train' 86511

xquad/vi

  • Opis konfiguracji: Podział testu XQuAD „vi”, z przetłumaczonymi maszynowo podziałami translacji pociągu/tłumaczenia-dev/tłumaczenia-testu z XTREME (Hu i in., 2020).

  • Rozmiar pliku do pobrania : 218.09 MiB

  • Rozmiar zestawu danych : 120.03 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 1190
'translate-dev' 10555
'translate-test' 1178
'translate-train' 87187

xquad/zh

  • Opis konfiguracji: Podział testu XQuAD „zh”, z przetłumaczonymi maszynowo podziałami translacji pociągu/tłumaczenia-dev/tłumaczenia-testu z XTREME (Hu i in., 2020).

  • Rozmiar pliku do pobrania : 174.57 MiB

  • Rozmiar zestawu danych : 80.79 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 1190
'translate-dev' 10475
'translate-test' 1186
'translate-train' 85700

xquad/en

  • Opis konfiguracji: Podział testu XQuAD „en”.

  • Rozmiar pliku do pobrania : 595.10 KiB

  • Rozmiar zestawu danych : 1.19 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 1190