- Deskripsi :
Terjemahkan kumpulan data berdasarkan data dari statmt.org.
Versi ada untuk tahun yang berbeda menggunakan kombinasi beberapa sumber data. Basis wmt_translate
memungkinkan Anda membuat konfigurasi sendiri untuk memilih pasangan data/bahasa Anda sendiri dengan membuat tfds.translate.wmt.WmtConfig
khusus.
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Kode sumber :
tfds.translate.Wmt16Translate
Versi :
-
1.0.0
(default): Tidak ada catatan rilis.
-
Instruksi pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke
download_config.manual_dir
(default ke~/tensorflow_datasets/downloads/manual/
):
Beberapa konfigurasi wmt di sini, memerlukan unduhan manual. Silakan lihat wmt.py untuk melihat jalur yang tepat (dan nama file) yang harus diunduh.Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@InProceedings{bojar-EtAl:2016:WMT1,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Graham, Yvette and Haddow, Barry and Huck, Matthias and Jimeno Yepes, Antonio and Koehn, Philipp and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Neveol, Aurelie and Neves, Mariana and Popel, Martin and Post, Matt and Rubino, Raphael and Scarton, Carolina and Specia, Lucia and Turchi, Marco and Verspoor, Karin and Zampieri, Marcos},
title = {Findings of the 2016 Conference on Machine Translation},
booktitle = {Proceedings of the First Conference on Machine Translation},
month = {August},
year = {2016},
address = {Berlin, Germany},
publisher = {Association for Computational Linguistics},
pages = {131--198},
url = {http://www.aclweb.org/anthology/W/W16/W16-2301}
}
wmt16_translate/cs-en (konfigurasi default)
Deskripsi konfigurasi : WMT 2016 cs-en translation task dataset.
Ukuran unduhan :
1.57 GiB
Ukuran dataset :
7.56 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 2.999 |
'train' | 52.335.651 |
'validation' | 2.656 |
- Struktur fitur :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
Terjemahan | ||||
cs | Teks | rangkaian | ||
en | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):('cs', 'en')
Contoh ( tfds.as_dataframe ):
wmt16_translate/de-en
Deskripsi konfigurasi : WMT 2016 de-en translation task dataset.
Ukuran unduhan :
1.57 GiB
Ukuran dataset :
1.38 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 2.999 |
'train' | 4.548.885 |
'validation' | 2.169 |
- Struktur fitur :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
Terjemahan | ||||
de | Teks | rangkaian | ||
en | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):('de', 'en')
Contoh ( tfds.as_dataframe ):
wmt16_translate/fi-en
Deskripsi konfigurasi : WMT 2016 fi-en translation task dataset.
Ukuran unduhan :
260.51 MiB
Ukuran dataset :
624.31 MiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 6.000 |
'train' | 2.073.394 |
'validation' | 1.370 |
- Struktur fitur :
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
Terjemahan | ||||
en | Teks | rangkaian | ||
fi | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):('fi', 'en')
Contoh ( tfds.as_dataframe ):
wmt16_translate/ro-en
Deskripsi konfigurasi : WMT 2016 ro-en translation task dataset.
Ukuran unduhan :
273.83 MiB
Ukuran dataset :
194.35 MiB
Auto-cached ( dokumentasi ): Ya (test, validasi), Hanya ketika
shuffle_files=False
(train)Perpecahan :
Membelah | Contoh |
---|---|
'test' | 1.999 |
'train' | 610.320 |
'validation' | 1.999 |
- Struktur fitur :
Translation({
'en': Text(shape=(), dtype=string),
'ro': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
Terjemahan | ||||
en | Teks | rangkaian | ||
ro | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):('ro', 'en')
Contoh ( tfds.as_dataframe ):
wmt16_translate/ru-en
Deskripsi konfigurasi : WMT 2016 ru-en translation task dataset.
Ukuran unduhan :
993.38 MiB
Ukuran dataset :
854.44 MiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 2.998 |
'train' | 2.516.162 |
'validation' | 2.818 |
- Struktur fitur :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
Terjemahan | ||||
en | Teks | rangkaian | ||
ru | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):('ru', 'en')
Contoh ( tfds.as_dataframe ):
wmt16_translate/tr-en
Deskripsi konfigurasi : WMT 2016 tr-en translation task dataset.
Ukuran unduhan :
59.32 MiB
Ukuran dataset :
63.21 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 3.000 |
'train' | 205.756 |
'validation' | 1.001 |
- Struktur fitur :
Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
Terjemahan | ||||
en | Teks | rangkaian | ||
tr | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):('tr', 'en')
Contoh ( tfds.as_dataframe ):