
  • opis :

GEM jest środowiskiem wzorcowym dla generowania języka naturalnego z naciskiem na jego ocenę, zarówno poprzez adnotacje ludzkie, jak i zautomatyzowane metryki.

GEM ma na celu: (1) pomiar postępu NLG w 13 zestawach danych obejmujących wiele zadań i języków NLG. (2) zapewniają dogłębną analizę danych i modeli przedstawionych za pomocą zestawień danych i zestawów wyzwań. (3) opracować standardy oceny generowanego tekstu przy użyciu zarówno metryk automatycznych, jak i ludzkich.

Więcej informacji można znaleźć na stronie https://gem-benchmark.com .

gem/common_gen (domyślna konfiguracja)

  • Opis konfiguracji: CommonGen to zadanie generowania tekstu z ograniczeniami, powiązane z zestawem danych porównawczych, w celu jawnego testowania maszyn pod kątem zdolności generatywnego rozumowania zdroworozsądkowego. Biorąc pod uwagę zestaw wspólnych pojęć; zadaniem jest wygenerowanie spójnego zdania opisującego codzienny scenariusz z wykorzystaniem tych pojęć.

  • Rozmiar pliku do pobrania : 1.84 MiB

  • Rozmiar zestawu danych : 16.84 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'challenge_test_scramble' 500
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 1497
'train' 67389
'validation' 993
  • Struktura funkcji :
'concept_set_id': int32,
'concepts': Sequence(string),
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'target': string,
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
identyfikator_zestawu koncepcji Napinacz int32
pojęcia Sekwencja (Tensor) (Nic,) strunowy
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
cel Napinacz strunowy
  • Opis konfiguracji : Zadaniem jest generowanie odpowiedzi w kontekście (hipotetycznego) systemu dialogowego, który dostarcza informacji o restauracjach. Dane wejściowe to podstawowy typ aktu intencji/dialogu oraz lista slotów (atrybutów) i ich wartości. Wynikiem jest zdanie w języku naturalnym.

  • Rozmiar pliku do pobrania : 1.46 MiB

  • Rozmiar zestawu danych : 2.71 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'challenge_test_scramble' 500
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 842
'train' 3569
'validation' 781
  • Struktura funkcji :
'dialog_act': string,
'dialog_act_delexicalized': string,
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'target': string,
'target_delexicalized': string,
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
dialog_akt Napinacz strunowy
dialog_act_delexicalized Napinacz strunowy
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
cel Napinacz strunowy
target_delexicalized Napinacz strunowy
  • Opis konfiguracji: DART to duży korpus generowania rekordów danych na tekst o otwartej domenie z wysokiej jakości adnotacjami zdań, przy czym każde wejście jest zbiorem potrójnych relacji encji zgodnie z ontologią o strukturze drzewiastej.

  • Rozmiar pliku do pobrania : 28.01 MiB

  • Rozmiar zestawu danych : 33.78 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 6959
'train' 62659
'validation' 2768
  • Struktura funkcji :
'dart_id': int32,
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'subtree_was_extended': bool,
'target': string,
'target_sources': Sequence(string),
'tripleset': Sequence(string),
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
dart_id Napinacz int32
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
subtree_was_extended Napinacz bool
cel Napinacz strunowy
źródła_docelowe Sekwencja (Tensor) (Nic,) strunowy
trójka Sekwencja (Tensor) (Nic,) strunowy
  • Opis konfiguracji: zestaw danych E2E jest przeznaczony do zadania zamiany danych na tekst w ograniczonej domenie — generowania opisów/rekomendacji restauracji na podstawie maksymalnie 8 różnych atrybutów (nazwa, obszar, przedział cenowy itp.)

  • Rozmiar pliku do pobrania : 13.99 MiB

  • Rozmiar zestawu danych : 16.92 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'challenge_test_scramble' 500
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 4693
'train' 33525
'validation' 4299
  • Struktura funkcji :
'gem_id': string,
'gem_parent_id': string,
'meaning_representation': string,
'references': Sequence(string),
'target': string,
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
znaczenie_reprezentacja Napinacz strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
cel Napinacz strunowy
  • Opis konfiguracji: MLSum to wielkoskalowy wielojęzyczny zbiór danych podsumowujących. Jest zbudowany z internetowych serwisów informacyjnych, ten podział koncentruje się na języku niemieckim.

  • Rozmiar pliku do pobrania : 345.98 MiB

  • Rozmiar zbioru danych : 963.60 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'challenge_test_covid' 5058
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 10695
'train' 220 748
'validation' 11392
  • Struktura funkcji :
'date': string,
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'target': string,
'text': string,
'title': string,
'topic': string,
'url': string,
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
data Napinacz strunowy
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
cel Napinacz strunowy
tekst Napinacz strunowy
tytuł Napinacz strunowy
temat Napinacz strunowy
adres URL Napinacz strunowy
  • Opis konfiguracji: MLSum to wielkoskalowy wielojęzyczny zbiór danych podsumowujących. Jest zbudowany z internetowych serwisów informacyjnych, ten podział koncentruje się na języku hiszpańskim.

  • Rozmiar pliku do pobrania : 501.27 MiB

  • Rozmiar zestawu danych : 1.29 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'challenge_test_covid' 1938
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 13366
'train' 259 888
'validation' 9977
  • Struktura funkcji :
'date': string,
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'target': string,
'text': string,
'title': string,
'topic': string,
'url': string,
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
data Napinacz strunowy
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
cel Napinacz strunowy
tekst Napinacz strunowy
tytuł Napinacz strunowy
temat Napinacz strunowy
adres URL Napinacz strunowy
  • Opis konfiguracji : Zestaw danych dialogu sterowanego schematem (SGD) zawiera 18 000 wielodomenowych zorientowanych na zadania dialogów między człowiekiem a wirtualnym asystentem, które obejmują 17 domen, od banków i wydarzeń po media, kalendarz, podróże i pogodę.

  • Rozmiar pliku do pobrania : 17.00 MiB

  • Rozmiar zestawu danych : 201.19 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak (challenge_test_backtranslation, challenge_test_bfp02, challenge_test_bfp05, challenge_test_nopunc, challenge_test_scramble, challenge_train_sample, challenge_validation_sample, test, validation), Tylko wtedy, gdy shuffle_files=False (pociąg)

  • Podziały :

Rozdzielać Przykłady
'challenge_test_backtranslation' 500
'challenge_test_bfp02' 500
'challenge_test_bfp05' 500
'challenge_test_nopunc' 500
'challenge_test_scramble' 500
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 10 000
'train' 164 982
'validation' 10 000
  • Struktura funkcji :
'context': Sequence(string),
'dialog_acts': Sequence({
'act': ClassLabel(shape=(), dtype=int64, num_classes=18),
'slot': string,
'values': Sequence(string),
'dialog_id': string,
'gem_id': string,
'gem_parent_id': string,
'prompt': string,
'references': Sequence(string),
'service': string,
'target': string,
'turn_id': int32,
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
kontekst Sekwencja (Tensor) (Nic,) strunowy
dialog_akty Sekwencja
dialog_akty/akt Etykieta klasy int64
dialog_akty/szczelina Napinacz strunowy
dialog_działania/wartości Sekwencja (Tensor) (Nic,) strunowy
identyfikator_dialogu Napinacz strunowy
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
podpowiedź Napinacz strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
usługa Napinacz strunowy
cel Napinacz strunowy
identyfikator_zwrotu Napinacz int32
  • Opis konfiguracji: ToTTo to zadanie NLG typu Table-to-Text. Zadanie jest następujące: Biorąc pod uwagę tabelę Wikipedii z nazwami wierszy, nazwami kolumn i komórkami tabeli, z podświetlonym podzbiorem komórek, wygeneruj opis w języku naturalnym dla podświetlonej części tabeli.

  • Rozmiar pliku do pobrania : 180.75 MiB

  • Rozmiar zestawu danych : 645.86 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'challenge_test_scramble' 500
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 7700
'train' 121153
'validation' 7700
  • Struktura funkcji :
'example_id': string,
'gem_id': string,
'gem_parent_id': string,
'highlighted_cells': Sequence(Sequence(int32)),
'overlap_subset': string,
'references': Sequence(string),
'sentence_annotations': Sequence({
'final_sentence': string,
'original_sentence': string,
'sentence_after_ambiguity': string,
'sentence_after_deletion': string,
'table': Sequence(Sequence({
'column_span': int32,
'is_header': bool,
'row_span': int32,
'value': string,
'table_page_title': string,
'table_section_text': string,
'table_section_title': string,
'table_webpage_url': string,
'target': string,
'totto_id': int32,
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
identyfikator_przykładu Napinacz strunowy
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
podświetlone_komórki Sekwencja(Sekwencja(Tensor)) (Brak, brak) int32
nakładający się_podzbiór Napinacz strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
zdanie_adnotacje Sekwencja
zdanie_adnotacje/zdanie_końcowe Napinacz strunowy
zdanie_adnotacje/oryginalne_zdanie Napinacz strunowy
zdanie_adnotacje/zdanie_po_niejednoznaczności Napinacz strunowy
zdanie_adnotacje/zdanie_po_usunięciu Napinacz strunowy
stół Sekwencja
tabela/rozpiętość_kolumn Napinacz int32
tabela/jest_nagłówkiem Napinacz bool
tabela/rozpiętość_wierszy Napinacz int32
tabela/wartość Napinacz strunowy
table_page_title Napinacz strunowy
tekst_sekcji_tabeli Napinacz strunowy
tytuł_sekcji_tabeli Napinacz strunowy
table_webpage_url Napinacz strunowy
cel Napinacz strunowy
totto_id Napinacz int32
  • Opis konfiguracji: WebNLG to dwujęzyczny zestaw danych (angielski, rosyjski) składający się z równoległych potrójnych zestawów DBpedia i krótkich tekstów, które obejmują około 450 różnych właściwości DBpedia. Dane WebNLG zostały pierwotnie stworzone w celu promowania rozwoju werbalizatorów RDF zdolnych do generowania krótkich tekstów i obsługi mikroplanowania.

  • Rozmiar pliku do pobrania : 12.57 MiB

  • Rozmiar zestawu danych : 19.91 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'challenge_test_numbers' 500
'challenge_test_scramble' 500
'challenge_train_sample' 502
'challenge_validation_sample' 499
'test' 1779
'train' 35426
'validation' 1667
  • Struktura funkcji :
'category': string,
'gem_id': string,
'gem_parent_id': string,
'input': Sequence(string),
'references': Sequence(string),
'target': string,
'webnlg_id': string,
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Kategoria Napinacz strunowy
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
Wejście Sekwencja (Tensor) (Nic,) strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
cel Napinacz strunowy
webnlg_id Napinacz strunowy
  • Opis konfiguracji: WebNLG to dwujęzyczny zestaw danych (angielski, rosyjski) składający się z równoległych potrójnych zestawów DBpedia i krótkich tekstów, które obejmują około 450 różnych właściwości DBpedia. Dane WebNLG zostały pierwotnie stworzone w celu promowania rozwoju werbalizatorów RDF zdolnych do generowania krótkich tekstów i obsługi mikroplanowania.

  • Rozmiar pliku do pobrania : 7.49 MiB

  • Rozmiar zestawu danych : 11.30 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'challenge_test_scramble' 500
'challenge_train_sample' 501
'challenge_validation_sample' 500
'test' 1102
'train' 14630
'validation' 790
  • Struktura funkcji :
'category': string,
'gem_id': string,
'gem_parent_id': string,
'input': Sequence(string),
'references': Sequence(string),
'target': string,
'webnlg_id': string,
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Kategoria Napinacz strunowy
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
Wejście Sekwencja (Tensor) (Nic,) strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
cel Napinacz strunowy
webnlg_id Napinacz strunowy
  • Opis konfiguracji: WikiAuto zapewnia zestaw wyrównanych zdań z angielskiej Wikipedii i prostej angielskiej Wikipedii jako źródło do szkolenia systemów upraszczania zdań. ASSET i TURK to wysokiej jakości zestawy danych upraszczających używane do testowania.

  • Rozmiar pliku do pobrania : 121.01 MiB

  • Rozmiar zestawu danych : 202.40 MiB

  • Auto-cached ( documentation ): Yes (challenge_test_asset_backtranslation, challenge_test_asset_bfp02, challenge_test_asset_bfp05, challenge_test_asset_nopunc, challenge_test_turk_backtranslation, challenge_test_turk_bfp02, challenge_test_turk_bfp05, challenge_test_turk_nopunc, challenge_train_sample, challenge_validation_sample, test_asset, test_turk, validation), Only when shuffle_files=False (train)

  • Podziały :

Rozdzielać Przykłady
'challenge_test_asset_backtranslation' 359
'challenge_test_asset_bfp02' 359
'challenge_test_asset_bfp05' 359
'challenge_test_asset_nopunc' 359
'challenge_test_turk_backtranslation' 359
'challenge_test_turk_bfp02' 359
'challenge_test_turk_bfp05' 359
'challenge_test_turk_nopunc' 359
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test_asset' 359
'test_turk' 359
'train' 483801
'validation' 20 000
  • Struktura funkcji :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'target': string,
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
źródło Napinacz strunowy
cel Napinacz strunowy
  • Opis konfiguracji : Zestaw danych służy do abstrakcyjnego podsumowania w jego ekstremalnej formie, polegającego na podsumowaniu dokumentu w jednym zdaniu.

  • Rozmiar pliku do pobrania : 246.31 MiB

  • Rozmiar zestawu danych : 78.89 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'challenge_test_backtranslation' 500
'challenge_test_bfp_02' 500
'challenge_test_bfp_05' 500
'challenge_test_covid' 401
'challenge_test_nopunc' 500
'challenge_train_sample' 500
'challenge_validation_sample' 500
'test' 1166
'train' 23206
'validation' 1117
  • Struktura funkcji :
'document': string,
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'target': string,
'xsum_id': string,
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
dokument Napinacz strunowy
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
cel Napinacz strunowy
xsum_id Napinacz strunowy
  • Opis konfiguracji: Wikilingua to wielkoskalowy, wielojęzyczny zbiór danych do oceny wielojęzycznych abstrakcyjnych systemów podsumowujących.

  • Rozmiar pliku do pobrania : 56.25 MiB

  • Rozmiar zestawu danych : 291.42 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'test' 5841
'train' 20441
'validation' 2919
  • Struktura funkcji :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'ar': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'ar': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
źródło Napinacz strunowy
źródło_wyrównane Tłumaczenie
źródło_wyrównane/ar Tekst strunowy
source_aligned/en Tekst strunowy
cel Napinacz strunowy
cel_wyrównany Tłumaczenie
wyrównany_docelowo/ar Tekst strunowy
target_aligned/en Tekst strunowy
  • Opis konfiguracji: Wikilingua to wielkoskalowy, wielojęzyczny zbiór danych do oceny wielojęzycznych abstrakcyjnych systemów podsumowujących.

  • Rozmiar pliku do pobrania : 31.38 MiB

  • Rozmiar zestawu danych : 122.06 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 3775
'train' 13211
'validation' 1886
  • Struktura funkcji :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'zh': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'zh': Text(shape=(), dtype=string),
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
źródło Napinacz strunowy
źródło_wyrównane Tłumaczenie
source_aligned/en Tekst strunowy
źródło_wyrównane/zh Tekst strunowy
cel Napinacz strunowy
cel_wyrównany Tłumaczenie
target_aligned/en Tekst strunowy
wyrównany_docelowo/zh Tekst strunowy
  • Opis konfiguracji: Wikilingua to wielkoskalowy, wielojęzyczny zbiór danych do oceny wielojęzycznych abstrakcyjnych systemów podsumowujących.

  • Rozmiar pliku do pobrania : 13.84 MiB

  • Rozmiar zestawu danych : 58.05 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 1438
'train' 5033
'validation' 718
  • Struktura funkcji :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
źródło Napinacz strunowy
źródło_wyrównane Tłumaczenie
źródło_wyrównane/cs Tekst strunowy
source_aligned/en Tekst strunowy
cel Napinacz strunowy
cel_wyrównany Tłumaczenie
target_aligned/cs Tekst strunowy
target_aligned/en Tekst strunowy
  • Opis konfiguracji: Wikilingua to wielkoskalowy, wielojęzyczny zbiór danych do oceny wielojęzycznych abstrakcyjnych systemów podsumowujących.

  • Rozmiar pliku do pobrania : 53.88 MiB

  • Rozmiar zestawu danych : 237.97 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak (test, walidacja), Tylko wtedy, gdy shuffle_files=False (pociąg)

  • Podziały :

Rozdzielać Przykłady
'test' 6248
'train' 21866
'validation' 3123
  • Struktura funkcji :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'nl': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'nl': Text(shape=(), dtype=string),
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
źródło Napinacz strunowy
źródło_wyrównane Tłumaczenie
source_aligned/en Tekst strunowy
źródło_wyrównane/nl Tekst strunowy
cel Napinacz strunowy
cel_wyrównany Tłumaczenie
target_aligned/en Tekst strunowy
target_aligned/nl Tekst strunowy
  • Opis konfiguracji: Wikilingua to wielkoskalowy, wielojęzyczny zbiór danych do oceny wielojęzycznych abstrakcyjnych systemów podsumowujących.

  • Rozmiar pliku do pobrania : 112.56 MiB

  • Rozmiar zbioru danych : 657.51 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'test' 28614
'train' 99 020
'validation' 13823
  • Struktura funkcji :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
źródło Napinacz strunowy
źródło_wyrównane Tłumaczenie
source_aligned/en Tekst strunowy
cel Napinacz strunowy
cel_wyrównany Tłumaczenie
target_aligned/en Tekst strunowy
  • Opis konfiguracji: Wikilingua to wielkoskalowy, wielojęzyczny zbiór danych do oceny wielojęzycznych abstrakcyjnych systemów podsumowujących.

  • Rozmiar pliku do pobrania : 113.26 MiB

  • Rozmiar zestawu danych : 522.28 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'test' 12731
'train' 44556
'validation' 6364
  • Struktura funkcji :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'fr': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'fr': Text(shape=(), dtype=string),
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
źródło Napinacz strunowy
źródło_wyrównane Tłumaczenie
source_aligned/en Tekst strunowy
wyrównane_źródło/fr Tekst strunowy
cel Napinacz strunowy
cel_wyrównany Tłumaczenie
target_aligned/en Tekst strunowy
target_aligned/fr Tekst strunowy
  • Opis konfiguracji: Wikilingua to wielkoskalowy, wielojęzyczny zbiór danych do oceny wielojęzycznych abstrakcyjnych systemów podsumowujących.

  • Rozmiar pliku do pobrania : 102.65 MiB

  • Rozmiar zestawu danych : 452.46 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'test' 11669
'train' 40839
'validation' 5833
  • Struktura funkcji :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
źródło Napinacz strunowy
źródło_wyrównane Tłumaczenie
source_aligned/de Tekst strunowy
source_aligned/en Tekst strunowy
cel Napinacz strunowy
cel_wyrównany Tłumaczenie
target_aligned/de Tekst strunowy
target_aligned/en Tekst strunowy
  • Opis konfiguracji: Wikilingua to wielkoskalowy, wielojęzyczny zbiór danych do oceny wielojęzycznych abstrakcyjnych systemów podsumowujących.

  • Rozmiar pliku do pobrania : 20.07 MiB

  • Rozmiar zestawu danych : 138.06 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 1984
'train' 6942
'validation' 991
  • Struktura funkcji :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'hi': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'hi': Text(shape=(), dtype=string),
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
źródło Napinacz strunowy
źródło_wyrównane Tłumaczenie
source_aligned/en Tekst strunowy
source_aligned/cześć Tekst strunowy
cel Napinacz strunowy
cel_wyrównany Tłumaczenie
target_aligned/en Tekst strunowy
target_aligned/cześć Tekst strunowy
  • Opis konfiguracji: Wikilingua to wielkoskalowy, wielojęzyczny zbiór danych do oceny wielojęzycznych abstrakcyjnych systemów podsumowujących.

  • Rozmiar pliku do pobrania : 80.08 MiB

  • Rozmiar zestawu danych : 370.63 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'test' 9497
'train' 33237
'validation' 4747
  • Struktura funkcji :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
źródło Napinacz strunowy
źródło_wyrównane Tłumaczenie
source_aligned/en Tekst strunowy
źródło_wyrównane/identyfikator Tekst strunowy
cel Napinacz strunowy
cel_wyrównany Tłumaczenie
target_aligned/en Tekst strunowy
wyrównany_docelowo/identyfikator Tekst strunowy
  • Opis konfiguracji: Wikilingua to wielkoskalowy, wielojęzyczny zbiór danych do oceny wielojęzycznych abstrakcyjnych systemów podsumowujących.

  • Rozmiar pliku do pobrania : 84.80 MiB

  • Rozmiar zestawu danych : 374.40 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'test' 10189
'train' 35661
'validation' 5093
  • Struktura funkcji :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'it': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'it': Text(shape=(), dtype=string),
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
źródło Napinacz strunowy
źródło_wyrównane Tłumaczenie
source_aligned/en Tekst strunowy
źródło_wyrównane/it Tekst strunowy
cel Napinacz strunowy
cel_wyrównany Tłumaczenie
target_aligned/en Tekst strunowy
cel_wyrównany/it Tekst strunowy
  • Opis konfiguracji: Wikilingua to wielkoskalowy, wielojęzyczny zbiór danych do oceny wielojęzycznych abstrakcyjnych systemów podsumowujących.

  • Rozmiar pliku do pobrania : 21.75 MiB

  • Rozmiar zestawu danych : 103.19 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 2530
'train' 8853
'validation' 1264
  • Struktura funkcji :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'ja': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'ja': Text(shape=(), dtype=string),
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
źródło Napinacz strunowy
źródło_wyrównane Tłumaczenie
source_aligned/en Tekst strunowy
źródło_wyrównane/ja Tekst strunowy
cel Napinacz strunowy
cel_wyrównany Tłumaczenie
target_aligned/en Tekst strunowy
wyrównany_docelowo/ja Tekst strunowy
  • Opis konfiguracji: Wikilingua to wielkoskalowy, wielojęzyczny zbiór danych do oceny wielojęzycznych abstrakcyjnych systemów podsumowujących.

  • Rozmiar pliku do pobrania : 22.26 MiB

  • Rozmiar zestawu danych : 102.35 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 2436
'train' 8524
'validation' 1216
  • Struktura funkcji :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'ko': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'ko': Text(shape=(), dtype=string),
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
źródło Napinacz strunowy
źródło_wyrównane Tłumaczenie
source_aligned/en Tekst strunowy
źródło_wyrównane/ko Tekst strunowy
cel Napinacz strunowy
cel_wyrównany Tłumaczenie
target_aligned/en Tekst strunowy
target_aligned/ko Tekst strunowy
  • Opis konfiguracji: Wikilingua to wielkoskalowy, wielojęzyczny zbiór danych do oceny wielojęzycznych abstrakcyjnych systemów podsumowujących.

  • Rozmiar pliku do pobrania : 131.17 MiB

  • Rozmiar zestawu danych : 570.46 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'test' 16331
'train' 57159
'validation' 8165
  • Struktura funkcji :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'pt': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'pt': Text(shape=(), dtype=string),
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
źródło Napinacz strunowy
źródło_wyrównane Tłumaczenie
source_aligned/en Tekst strunowy
źródło_wyrównane/pt Tekst strunowy
cel Napinacz strunowy
cel_wyrównany Tłumaczenie
target_aligned/en Tekst strunowy
wyrównany_docelowo/punkt Tekst strunowy
  • Opis konfiguracji: Wikilingua to wielkoskalowy, wielojęzyczny zbiór danych do oceny wielojęzycznych abstrakcyjnych systemów podsumowujących.

  • Rozmiar pliku do pobrania : 101.36 MiB

  • Rozmiar zestawu danych : 564.69 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'test' 10580
'train' 37028
'validation' 5288
  • Struktura funkcji :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
źródło Napinacz strunowy
źródło_wyrównane Tłumaczenie
source_aligned/en Tekst strunowy
źródło_wyrównane/ru Tekst strunowy
cel Napinacz strunowy
cel_wyrównany Tłumaczenie
target_aligned/en Tekst strunowy
target_aligned/ru Tekst strunowy
  • Opis konfiguracji: Wikilingua to wielkoskalowy, wielojęzyczny zbiór danych do oceny wielojęzycznych abstrakcyjnych systemów podsumowujących.

  • Rozmiar pliku do pobrania : 189.06 MiB

  • Rozmiar zestawu danych : 849.75 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'test' 22632
'train' 79212
'validation' 11316
  • Struktura funkcji :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'es': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'es': Text(shape=(), dtype=string),
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
źródło Napinacz strunowy
źródło_wyrównane Tłumaczenie
source_aligned/en Tekst strunowy
source_aligned/es Tekst strunowy
cel Napinacz strunowy
cel_wyrównany Tłumaczenie
target_aligned/en Tekst strunowy
target_aligned/es Tekst strunowy
  • Opis konfiguracji: Wikilingua to wielkoskalowy, wielojęzyczny zbiór danych do oceny wielojęzycznych abstrakcyjnych systemów podsumowujących.

  • Rozmiar pliku do pobrania : 28.60 MiB

  • Rozmiar zestawu danych : 193.77 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak (test, walidacja), Tylko wtedy, gdy shuffle_files=False (pociąg)

  • Podziały :

Rozdzielać Przykłady
'test' 2950
'train' 10325
'validation' 1475
  • Struktura funkcji :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'th': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'th': Text(shape=(), dtype=string),
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
źródło Napinacz strunowy
źródło_wyrównane Tłumaczenie
source_aligned/en Tekst strunowy
źródło_wyrównane/th Tekst strunowy
cel Napinacz strunowy
cel_wyrównany Tłumaczenie
target_aligned/en Tekst strunowy
target_aligned/th Tekst strunowy
  • Opis konfiguracji: Wikilingua to wielkoskalowy, wielojęzyczny zbiór danych do oceny wielojęzycznych abstrakcyjnych systemów podsumowujących.

  • Rozmiar pliku do pobrania : 6.73 MiB

  • Rozmiar zestawu danych : 30.75 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 900
'train' 3148
'validation' 449
  • Struktura funkcji :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
źródło Napinacz strunowy
źródło_wyrównane Tłumaczenie
source_aligned/en Tekst strunowy
źródło_wyrównane/tr Tekst strunowy
cel Napinacz strunowy
cel_wyrównany Tłumaczenie
target_aligned/en Tekst strunowy
wyrównany_docelowo/tr Tekst strunowy
  • Opis konfiguracji: Wikilingua to wielkoskalowy, wielojęzyczny zbiór danych do oceny wielojęzycznych abstrakcyjnych systemów podsumowujących.

  • Rozmiar pliku do pobrania : 36.27 MiB

  • Rozmiar zestawu danych : 179.77 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 3917
'train' 13707
'validation' 1957
  • Struktura funkcji :
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'vi': Text(shape=(), dtype=string),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'vi': Text(shape=(), dtype=string),
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
klejnot_id Napinacz strunowy
identyfikator_nadrzędnego klejnotu Napinacz strunowy
Bibliografia Sekwencja (Tensor) (Nic,) strunowy
źródło Napinacz strunowy
źródło_wyrównane Tłumaczenie
source_aligned/en Tekst strunowy
źródło_wyrównane/vi Tekst strunowy
cel Napinacz strunowy
cel_wyrównany Tłumaczenie
target_aligned/en Tekst strunowy
wyrównany_docelowo/vi Tekst strunowy
