wmt17_translate

  • Deskripsi :

Terjemahkan kumpulan data berdasarkan data dari statmt.org.

Versi ada untuk tahun yang berbeda menggunakan kombinasi beberapa sumber data. Basis wmt_translate memungkinkan Anda membuat konfigurasi sendiri untuk memilih pasangan data/bahasa Anda sendiri dengan membuat tfds.translate.wmt.WmtConfig khusus.

config = tfds.translate.wmt.WmtConfig(
    version="0.0.1",
    language_pair=("fr", "de"),
    subsets={
        tfds.Split.TRAIN: ["commoncrawl_frde"],
        tfds.Split.VALIDATION: ["euelections_dev2019"],
    },
)
builder = tfds.builder("wmt_translate", config=config)
  • Beranda : http://www.statmt.org/wmt17/translation-task.html

  • Kode sumber : tfds.translate.Wmt17Translate

  • Versi :

    • 1.0.0 (default): Tidak ada catatan rilis.
  • Instruksi pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke download_config.manual_dir (default ke ~/tensorflow_datasets/downloads/manual/ ):
    Beberapa konfigurasi wmt di sini, memerlukan unduhan manual. Silakan lihat wmt.py untuk melihat jalur yang tepat (dan nama file) yang harus diunduh.

  • Gambar ( tfds.show_examples ): Tidak didukung.

  • Kutipan :

@InProceedings{bojar-EtAl:2017:WMT1,
  author    = {Bojar, Ond
{r}ej  and  Chatterjee, Rajen  and  Federmann, Christian  and  Graham, Yvette  and  Haddow, Barry  and  Huang, Shujian  and  Huck, Matthias  and  Koehn, Philipp  and  Liu, Qun  and  Logacheva, Varvara  and  Monz, Christof  and  Negri, Matteo  and  Post, Matt  and  Rubino, Raphael  and  Specia, Lucia  and  Turchi, Marco},
  title     = {Findings of the 2017 Conference on Machine Translation (WMT17)},
  booktitle = {Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers},
  month     = {September},
  year      = {2017},
  address   = {Copenhagen, Denmark},
  publisher = {Association for Computational Linguistics},
  pages     = {169--214},
  url       = {http://www.aclweb.org/anthology/W17-4717}
}

wmt17_translate/cs-en (konfigurasi default)

  • Deskripsi konfigurasi : WMT 2017 cs-en translation task dataset.

  • Ukuran unduhan : 1.66 GiB

  • Ukuran dataset : 2.91 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'test' 3.005
'train' 15.851.649
'validation' 2.999
  • Struktur fitur :
Translation({
    'cs': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
cs Teks rangkaian
en Teks rangkaian

wmt17_translate/de-en

  • Deskripsi konfigurasi : WMT 2017 de-en translation task dataset.

  • Ukuran unduhan : 1.81 GiB

  • Ukuran dataset : 1.73 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'test' 3.004
'train' 5.906.184
'validation' 2.999
  • Struktur fitur :
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
de Teks rangkaian
en Teks rangkaian

wmt17_translate/fi-en

  • Deskripsi konfigurasi : WMT 2017 fi-en translation task dataset.

  • Ukuran unduhan : 414.10 MiB

  • Ukuran dataset : 769.87 MiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'test' 6.004
'train' 2.656.542
'validation' 6.000
  • Struktur fitur :
Translation({
    'en': Text(shape=(), dtype=string),
    'fi': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
en Teks rangkaian
fi Teks rangkaian

wmt17_translate/lv-en

  • Deskripsi konfigurasi : WMT 2017 lv-en translation task dataset.

  • Ukuran unduhan : 161.69 MiB

  • Ukuran dataset : 562.26 MiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'test' 2.001
'train' 3.567.528
'validation' 2.003
  • Struktur fitur :
Translation({
    'en': Text(shape=(), dtype=string),
    'lv': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
en Teks rangkaian
lv Teks rangkaian

wmt17_translate/ru-en

  • Deskripsi konfigurasi : WMT 2017 ru-en translation task dataset.

  • Ukuran unduhan : 1.06 GiB

  • Ukuran dataset : 11.18 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'test' 3.001
'train' 25.782.720
'validation' 2.998
  • Struktur fitur :
Translation({
    'en': Text(shape=(), dtype=string),
    'ru': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
en Teks rangkaian
ru Teks rangkaian

wmt17_translate/tr-en

  • Deskripsi konfigurasi : WMT 2017 tr-en translation task dataset.

  • Ukuran unduhan : 59.32 MiB

  • Ukuran dataset : 63.74 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'test' 3.007
'train' 205.756
'validation' 3.000
  • Struktur fitur :
Translation({
    'en': Text(shape=(), dtype=string),
    'tr': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
en Teks rangkaian
tr Teks rangkaian

wmt17_translate/zh-en

  • Deskripsi konfigurasi : WMT 2017 zh-en translation task dataset.

  • Ukuran unduhan : 884.32 MiB

  • Ukuran dataset : 6.43 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'test' 2.001
'train' 25.136.609
'validation' 2.002
  • Struktur fitur :
Translation({
    'en': Text(shape=(), dtype=string),
    'zh': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
en Teks rangkaian
zh Teks rangkaian