wmt17_translate

  • opis :

Przetłumacz zestaw danych na podstawie danych z statmt.org.

Wersje istnieją dla różnych lat przy użyciu kombinacji wielu źródeł danych. Podstawowy wmt_translate umożliwia utworzenie własnej konfiguracji w celu wybrania własnej pary danych/języka poprzez utworzenie niestandardowego tfds.translate.wmt.WmtConfig .

config = tfds.translate.wmt.WmtConfig(
    version="0.0.1",
    language_pair=("fr", "de"),
    subsets={
        tfds.Split.TRAIN: ["commoncrawl_frde"],
        tfds.Split.VALIDATION: ["euelections_dev2019"],
    },
)
builder = tfds.builder("wmt_translate", config=config)
  • Strona główna : http://www.statmt.org/wmt17/translation-task.html

  • Kod źródłowy : tfds.translate.Wmt17Translate

  • Wersje :

    • 1.0.0 (domyślnie): Brak informacji o wersji.
  • Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do katalogu download_config.manual_dir (domyślnie ~/tensorflow_datasets/downloads/manual/ ):
    Niektóre konfiguracje wmt tutaj wymagają ręcznego pobrania. Zajrzyj do pliku wmt.py, aby zobaczyć dokładną ścieżkę (i nazwę pliku), który należy pobrać.

  • Rysunek ( tfds.show_examples ): Nieobsługiwany.

  • Cytat :

@InProceedings{bojar-EtAl:2017:WMT1,
  author    = {Bojar, Ond
{r}ej  and  Chatterjee, Rajen  and  Federmann, Christian  and  Graham, Yvette  and  Haddow, Barry  and  Huang, Shujian  and  Huck, Matthias  and  Koehn, Philipp  and  Liu, Qun  and  Logacheva, Varvara  and  Monz, Christof  and  Negri, Matteo  and  Post, Matt  and  Rubino, Raphael  and  Specia, Lucia  and  Turchi, Marco},
  title     = {Findings of the 2017 Conference on Machine Translation (WMT17)},
  booktitle = {Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers},
  month     = {September},
  year      = {2017},
  address   = {Copenhagen, Denmark},
  publisher = {Association for Computational Linguistics},
  pages     = {169--214},
  url       = {http://www.aclweb.org/anthology/W17-4717}
}

wmt17_translate/cs-en (domyślna konfiguracja)

  • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2017 cs-en.

  • Rozmiar pliku do pobrania : 1.66 GiB

  • Rozmiar zestawu danych : 2.91 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'test' 3005
'train' 15 851 649
'validation' 2999
  • Struktura funkcji :
Translation({
    'cs': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
cs Tekst strunowy
en Tekst strunowy

wmt17_translate/de-en

  • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2017.

  • Rozmiar pliku do pobrania : 1.81 GiB

  • Rozmiar zestawu danych : 1.73 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'test' 3004
'train' 5906184
'validation' 2999
  • Struktura funkcji :
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
de Tekst strunowy
en Tekst strunowy

wmt17_translate/fi-pl

  • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2017 fi-en.

  • Rozmiar pliku do pobrania : 414.10 MiB

  • Rozmiar zbioru danych : 769.87 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'test' 6004
'train' 2 656 542
'validation' 6000
  • Struktura funkcji :
Translation({
    'en': Text(shape=(), dtype=string),
    'fi': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
en Tekst strunowy
fi Tekst strunowy

wmt17_translate/lv-en

  • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2017 lv-en.

  • Rozmiar pliku do pobrania : 161.69 MiB

  • Rozmiar zestawu danych : 562.26 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'test' 2001
'train' 3 567 528
'validation' 2003
  • Struktura funkcji :
Translation({
    'en': Text(shape=(), dtype=string),
    'lv': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
en Tekst strunowy
lv Tekst strunowy

wmt17_translate/ru-en

  • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2017 ru-en.

  • Rozmiar pliku do pobrania : 1.06 GiB

  • Rozmiar zestawu danych : 11.18 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'test' 3001
'train' 25 782 720
'validation' 2998
  • Struktura funkcji :
Translation({
    'en': Text(shape=(), dtype=string),
    'ru': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
en Tekst strunowy
ru Tekst strunowy

wmt17_translate/tr-en

  • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2017 tr-en.

  • Rozmiar pliku do pobrania : 59.32 MiB

  • Rozmiar zestawu danych : 63.74 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 3007
'train' 205756
'validation' 3000
  • Struktura funkcji :
Translation({
    'en': Text(shape=(), dtype=string),
    'tr': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
en Tekst strunowy
tr Tekst strunowy

wmt17_translate/zh-en

  • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2017 zh-en.

  • Rozmiar pliku do pobrania : 884.32 MiB

  • Rozmiar zestawu danych : 6.43 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'test' 2001
'train' 25.136.609
'validation' 2002
  • Struktura funkcji :
Translation({
    'en': Text(shape=(), dtype=string),
    'zh': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
en Tekst strunowy
zh Tekst strunowy