- opis :
Przetłumacz zestaw danych na podstawie danych z statmt.org.
Wersje istnieją dla różnych lat przy użyciu kombinacji wielu źródeł danych. Podstawowy wmt_translate umożliwia utworzenie własnej konfiguracji w celu wybrania własnej pary danych/języka poprzez utworzenie niestandardowego tfds.translate.wmt.WmtConfig .
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
Strona główna : http://www.statmt.org/wmt17/translation-task.html
Kod źródłowy :
tfds.translate.Wmt17TranslateWersje :
-
1.0.0(domyślnie): Brak informacji o wersji.
-
Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do katalogu
download_config.manual_dir(domyślnie~/tensorflow_datasets/downloads/manual/):
Niektóre konfiguracje wmt tutaj wymagają ręcznego pobrania. Zajrzyj do pliku wmt.py, aby zobaczyć dokładną ścieżkę (i nazwę pliku), który należy pobrać.Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@InProceedings{bojar-EtAl:2017:WMT1,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Graham, Yvette and Haddow, Barry and Huang, Shujian and Huck, Matthias and Koehn, Philipp and Liu, Qun and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Post, Matt and Rubino, Raphael and Specia, Lucia and Turchi, Marco},
title = {Findings of the 2017 Conference on Machine Translation (WMT17)},
booktitle = {Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers},
month = {September},
year = {2017},
address = {Copenhagen, Denmark},
publisher = {Association for Computational Linguistics},
pages = {169--214},
url = {http://www.aclweb.org/anthology/W17-4717}
}
wmt17_translate/cs-en (domyślna konfiguracja)
Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2017 cs-en.
Rozmiar pliku do pobrania :
1.66 GiBRozmiar zestawu danych :
2.91 GiBAutomatyczne buforowanie ( dokumentacja ): Nie
Podziały :
| Rozdzielać | Przykłady |
|---|---|
'test' | 3005 |
'train' | 15 851 649 |
'validation' | 2999 |
- Struktura funkcji :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
| Funkcja | Klasa | Kształt | Typ D | Opis |
|---|---|---|---|---|
| Tłumaczenie | ||||
| cs | Tekst | strunowy | ||
| en | Tekst | strunowy |
Nadzorowane klucze (zobacz
as_superviseddoc ):('cs', 'en')Przykłady ( tfds.as_dataframe ):
wmt17_translate/de-en
Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2017.
Rozmiar pliku do pobrania :
1.81 GiBRozmiar zestawu danych :
1.73 GiBAutomatyczne buforowanie ( dokumentacja ): Nie
Podziały :
| Rozdzielać | Przykłady |
|---|---|
'test' | 3004 |
'train' | 5906184 |
'validation' | 2999 |
- Struktura funkcji :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
| Funkcja | Klasa | Kształt | Typ D | Opis |
|---|---|---|---|---|
| Tłumaczenie | ||||
| de | Tekst | strunowy | ||
| en | Tekst | strunowy |
Nadzorowane klucze (Zobacz
as_superviseddoc ):('de', 'en')Przykłady ( tfds.as_dataframe ):
wmt17_translate/fi-pl
Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2017 fi-en.
Rozmiar pliku do pobrania :
414.10 MiBRozmiar zbioru danych :
769.87 MiBAutomatyczne buforowanie ( dokumentacja ): Nie
Podziały :
| Rozdzielać | Przykłady |
|---|---|
'test' | 6004 |
'train' | 2 656 542 |
'validation' | 6000 |
- Struktura funkcji :
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
| Funkcja | Klasa | Kształt | Typ D | Opis |
|---|---|---|---|---|
| Tłumaczenie | ||||
| en | Tekst | strunowy | ||
| fi | Tekst | strunowy |
Nadzorowane klucze (Zobacz
as_superviseddoc ):('fi', 'en')Przykłady ( tfds.as_dataframe ):
wmt17_translate/lv-en
Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2017 lv-en.
Rozmiar pliku do pobrania :
161.69 MiBRozmiar zestawu danych :
562.26 MiBAutomatyczne buforowanie ( dokumentacja ): Nie
Podziały :
| Rozdzielać | Przykłady |
|---|---|
'test' | 2001 |
'train' | 3 567 528 |
'validation' | 2003 |
- Struktura funkcji :
Translation({
'en': Text(shape=(), dtype=string),
'lv': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
| Funkcja | Klasa | Kształt | Typ D | Opis |
|---|---|---|---|---|
| Tłumaczenie | ||||
| en | Tekst | strunowy | ||
| lv | Tekst | strunowy |
Nadzorowane klucze (Zobacz
as_superviseddoc ):('lv', 'en')Przykłady ( tfds.as_dataframe ):
wmt17_translate/ru-en
Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2017 ru-en.
Rozmiar pliku do pobrania :
1.06 GiBRozmiar zestawu danych :
11.18 GiBAutomatyczne buforowanie ( dokumentacja ): Nie
Podziały :
| Rozdzielać | Przykłady |
|---|---|
'test' | 3001 |
'train' | 25 782 720 |
'validation' | 2998 |
- Struktura funkcji :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
| Funkcja | Klasa | Kształt | Typ D | Opis |
|---|---|---|---|---|
| Tłumaczenie | ||||
| en | Tekst | strunowy | ||
| ru | Tekst | strunowy |
Nadzorowane klucze (Zobacz
as_superviseddoc ):('ru', 'en')Przykłady ( tfds.as_dataframe ):
wmt17_translate/tr-en
Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2017 tr-en.
Rozmiar pliku do pobrania :
59.32 MiBRozmiar zestawu danych :
63.74 MiBAutomatyczne buforowanie ( dokumentacja ): Tak
Podziały :
| Rozdzielać | Przykłady |
|---|---|
'test' | 3007 |
'train' | 205756 |
'validation' | 3000 |
- Struktura funkcji :
Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
| Funkcja | Klasa | Kształt | Typ D | Opis |
|---|---|---|---|---|
| Tłumaczenie | ||||
| en | Tekst | strunowy | ||
| tr | Tekst | strunowy |
Nadzorowane klucze (Zobacz
as_superviseddoc ):('tr', 'en')Przykłady ( tfds.as_dataframe ):
wmt17_translate/zh-en
Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2017 zh-en.
Rozmiar pliku do pobrania :
884.32 MiBRozmiar zestawu danych :
6.43 GiBAutomatyczne buforowanie ( dokumentacja ): Nie
Podziały :
| Rozdzielać | Przykłady |
|---|---|
'test' | 2001 |
'train' | 25.136.609 |
'validation' | 2002 |
- Struktura funkcji :
Translation({
'en': Text(shape=(), dtype=string),
'zh': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
| Funkcja | Klasa | Kształt | Typ D | Opis |
|---|---|---|---|---|
| Tłumaczenie | ||||
| en | Tekst | strunowy | ||
| zh | Tekst | strunowy |
Nadzorowane klucze (Zobacz
as_superviseddoc ):('zh', 'en')Przykłady ( tfds.as_dataframe ):