- Deskripsi :
Terjemahkan kumpulan data berdasarkan data dari statmt.org.
Versi ada untuk tahun yang berbeda menggunakan kombinasi beberapa sumber data. Basis wmt_translate memungkinkan Anda membuat konfigurasi sendiri untuk memilih pasangan data/bahasa Anda sendiri dengan membuat tfds.translate.wmt.WmtConfig khusus.
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
Kode sumber :
tfds.translate.Wmt17TranslateVersi :
-
1.0.0(default): Tidak ada catatan rilis.
-
Instruksi pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke
download_config.manual_dir(default ke~/tensorflow_datasets/downloads/manual/):
Beberapa konfigurasi wmt di sini, memerlukan unduhan manual. Silakan lihat wmt.py untuk melihat jalur yang tepat (dan nama file) yang harus diunduh.Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@InProceedings{bojar-EtAl:2017:WMT1,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Graham, Yvette and Haddow, Barry and Huang, Shujian and Huck, Matthias and Koehn, Philipp and Liu, Qun and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Post, Matt and Rubino, Raphael and Specia, Lucia and Turchi, Marco},
title = {Findings of the 2017 Conference on Machine Translation (WMT17)},
booktitle = {Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers},
month = {September},
year = {2017},
address = {Copenhagen, Denmark},
publisher = {Association for Computational Linguistics},
pages = {169--214},
url = {http://www.aclweb.org/anthology/W17-4717}
}
wmt17_translate/cs-en (konfigurasi default)
Deskripsi konfigurasi : WMT 2017 cs-en translation task dataset.
Ukuran unduhan :
1.66 GiBUkuran dataset :
2.91 GiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'test' | 3.005 |
'train' | 15.851.649 |
'validation' | 2.999 |
- Struktur fitur :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
| Fitur | Kelas | Membentuk | Dtype | Keterangan |
|---|---|---|---|---|
| Terjemahan | ||||
| cs | Teks | rangkaian | ||
| en | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_superviseddoc ):('cs', 'en')Contoh ( tfds.as_dataframe ):
wmt17_translate/de-en
Deskripsi konfigurasi : WMT 2017 de-en translation task dataset.
Ukuran unduhan :
1.81 GiBUkuran dataset :
1.73 GiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'test' | 3.004 |
'train' | 5.906.184 |
'validation' | 2.999 |
- Struktur fitur :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
| Fitur | Kelas | Membentuk | Dtype | Keterangan |
|---|---|---|---|---|
| Terjemahan | ||||
| de | Teks | rangkaian | ||
| en | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_superviseddoc ):('de', 'en')Contoh ( tfds.as_dataframe ):
wmt17_translate/fi-en
Deskripsi konfigurasi : WMT 2017 fi-en translation task dataset.
Ukuran unduhan :
414.10 MiBUkuran dataset :
769.87 MiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'test' | 6.004 |
'train' | 2.656.542 |
'validation' | 6.000 |
- Struktur fitur :
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
| Fitur | Kelas | Membentuk | Dtype | Keterangan |
|---|---|---|---|---|
| Terjemahan | ||||
| en | Teks | rangkaian | ||
| fi | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_superviseddoc ):('fi', 'en')Contoh ( tfds.as_dataframe ):
wmt17_translate/lv-en
Deskripsi konfigurasi : WMT 2017 lv-en translation task dataset.
Ukuran unduhan :
161.69 MiBUkuran dataset :
562.26 MiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'test' | 2.001 |
'train' | 3.567.528 |
'validation' | 2.003 |
- Struktur fitur :
Translation({
'en': Text(shape=(), dtype=string),
'lv': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
| Fitur | Kelas | Membentuk | Dtype | Keterangan |
|---|---|---|---|---|
| Terjemahan | ||||
| en | Teks | rangkaian | ||
| lv | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_superviseddoc ):('lv', 'en')Contoh ( tfds.as_dataframe ):
wmt17_translate/ru-en
Deskripsi konfigurasi : WMT 2017 ru-en translation task dataset.
Ukuran unduhan :
1.06 GiBUkuran dataset :
11.18 GiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'test' | 3.001 |
'train' | 25.782.720 |
'validation' | 2.998 |
- Struktur fitur :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
| Fitur | Kelas | Membentuk | Dtype | Keterangan |
|---|---|---|---|---|
| Terjemahan | ||||
| en | Teks | rangkaian | ||
| ru | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_superviseddoc ):('ru', 'en')Contoh ( tfds.as_dataframe ):
wmt17_translate/tr-en
Deskripsi konfigurasi : WMT 2017 tr-en translation task dataset.
Ukuran unduhan :
59.32 MiBUkuran dataset :
63.74 MiBDi-cache otomatis ( dokumentasi ): Ya
Perpecahan :
| Membelah | Contoh |
|---|---|
'test' | 3.007 |
'train' | 205.756 |
'validation' | 3.000 |
- Struktur fitur :
Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
| Fitur | Kelas | Membentuk | Dtype | Keterangan |
|---|---|---|---|---|
| Terjemahan | ||||
| en | Teks | rangkaian | ||
| tr | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_superviseddoc ):('tr', 'en')Contoh ( tfds.as_dataframe ):
wmt17_translate/zh-en
Deskripsi konfigurasi : WMT 2017 zh-en translation task dataset.
Ukuran unduhan :
884.32 MiBUkuran dataset :
6.43 GiBDi-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
| Membelah | Contoh |
|---|---|
'test' | 2.001 |
'train' | 25.136.609 |
'validation' | 2.002 |
- Struktur fitur :
Translation({
'en': Text(shape=(), dtype=string),
'zh': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
| Fitur | Kelas | Membentuk | Dtype | Keterangan |
|---|---|---|---|---|
| Terjemahan | ||||
| en | Teks | rangkaian | ||
| zh | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_superviseddoc ):('zh', 'en')Contoh ( tfds.as_dataframe ):