wmt17_translate

  • Mô tả :

Dịch tập dữ liệu dựa trên dữ liệu từ statmt.org.

Các phiên bản tồn tại trong các năm khác nhau bằng cách sử dụng kết hợp nhiều nguồn dữ liệu. Cơ sở wmt_translate cho phép bạn tạo cấu hình của riêng mình để chọn cặp dữ liệu / ngôn ngữ của riêng bạn bằng cách tạo tfds.translate.wmt.WmtConfig tùy chỉnh.

config = tfds.translate.wmt.WmtConfig(
    version="0.0.1",
    language_pair=("fr", "de"),
    subsets={
        tfds.Split.TRAIN: ["commoncrawl_frde"],
        tfds.Split.VALIDATION: ["euelections_dev2019"],
    },
)
builder = tfds.builder("wmt_translate", config=config)
  • Trang chủ : http://www.statmt.org/wmt17/translation-task.html

  • Mã nguồn : tfds.translate.Wmt17Translate

  • Các phiên bản :

    • 1.0.0 (mặc định): Không có ghi chú phát hành.
  • Kích thước tập dữ liệu : Unknown size

  • Hướng dẫn tải xuống thủ công: Tập dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
    Một số cấu hình wmt ở đây, yêu cầu tải xuống thủ công. Vui lòng xem wmt.py để xem đường dẫn chính xác (và tên tệp) phải được tải xuống.

  • Tự động lưu trong bộ nhớ đệm ( tài liệu ): Không xác định

  • Hình ( tfds.show_examples ): Không được hỗ trợ.

  • Ví dụ ( tfds.as_dataframe ): Thiếu.

  • Trích dẫn :

@InProceedings{bojar-EtAl:2017:WMT1,
  author    = {Bojar, Ond
{r}ej  and  Chatterjee, Rajen  and  Federmann, Christian  and  Graham, Yvette  and  Haddow, Barry  and  Huang, Shujian  and  Huck, Matthias  and  Koehn, Philipp  and  Liu, Qun  and  Logacheva, Varvara  and  Monz, Christof  and  Negri, Matteo  and  Post, Matt  and  Rubino, Raphael  and  Specia, Lucia  and  Turchi, Marco},
  title     = {Findings of the 2017 Conference on Machine Translation (WMT17)},
  booktitle = {Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers},
  month     = {September},
  year      = {2017},
  address   = {Copenhagen, Denmark},
  publisher = {Association for Computational Linguistics},
  pages     = {169--214},
  url       = {http://www.aclweb.org/anthology/W17-4717}
}

wmt17_translate / cs-en (cấu hình mặc định)

  • Mô tả cấu hình : Tập dữ liệu tác vụ dịch cs-en WMT 2017.

  • Kích thước tải xuống : 1.66 GiB

  • Tách :

Tách ra Các ví dụ
'test' 3.005
'train' 15.851.649
'validation' 2.999
  • Cấu trúc tính năng :
Translation({
    'cs': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Dịch
cs Chữ tf.string
en Chữ tf.string

wmt17_translate / de-en

  • Mô tả cấu hình : Tập dữ liệu nhiệm vụ dịch de-en WMT 2017.

  • Kích thước tải xuống : 1.81 GiB

  • Tách :

Tách ra Các ví dụ
'test' 3.004
'train' 5.906.184
'validation' 2.999
  • Cấu trúc tính năng :
Translation({
    'de': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Dịch
de Chữ tf.string
en Chữ tf.string

wmt17_translate / fi-en

  • Mô tả cấu hình : Tập dữ liệu nhiệm vụ dịch fi-en WMT 2017.

  • Kích thước tải xuống : 414.10 MiB

  • Tách :

Tách ra Các ví dụ
'test' 6,004
'train' 2.656.542
'validation' 6.000
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'fi': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Dịch
en Chữ tf.string
fi Chữ tf.string

wmt17_translate / lv-en

  • Mô tả cấu hình : Bộ dữ liệu tác vụ dịch lv-en WMT 2017.

  • Kích thước tải xuống : 161.69 MiB

  • Tách :

Tách ra Các ví dụ
'test' 2.001
'train' 3.567.528
'validation' 2,003
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'lv': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Dịch
en Chữ tf.string
lv Chữ tf.string

wmt17_translate / ru-en

  • Mô tả cấu hình : Tập dữ liệu tác vụ dịch ru-en WMT 2017.

  • Kích thước tải xuống : 3.34 GiB

  • Tách :

Tách ra Các ví dụ
'test' 3.001
'train' 25.782.720
'validation' 2.998
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'ru': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Dịch
en Chữ tf.string
ru Chữ tf.string

wmt17_translate / tr-en

  • Mô tả cấu hình : Tập dữ liệu tác vụ dịch tr-en WMT 2017.

  • Kích thước tải xuống : 59.32 MiB

  • Tách :

Tách ra Các ví dụ
'test' 3.007
'train' 206.756
'validation' 3.000
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'tr': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Dịch
en Chữ tf.string
tr Chữ tf.string

wmt17_translate / zh-en

  • Mô tả cấu hình : Tập dữ liệu nhiệm vụ dịch WMT 2017 zh-en.

  • Kích thước tải xuống : 2.16 GiB

  • Tách :

Tách ra Các ví dụ
'test' 2.001
'train' 25.136.609
'validation' 2,002
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'zh': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Dịch
en Chữ tf.string
zh Chữ tf.string