wmt13_translate

  • Mô tả :

Dịch tập dữ liệu dựa trên dữ liệu từ statmt.org.

Các phiên bản tồn tại trong các năm khác nhau bằng cách sử dụng kết hợp nhiều nguồn dữ liệu. Cơ sở wmt_translate cho phép bạn tạo cấu hình của riêng mình để chọn cặp dữ liệu / ngôn ngữ của riêng bạn bằng cách tạo tfds.translate.wmt.WmtConfig tùy chỉnh.

config = tfds.translate.wmt.WmtConfig(
    version="0.0.1",
    language_pair=("fr", "de"),
    subsets={
        tfds.Split.TRAIN: ["commoncrawl_frde"],
        tfds.Split.VALIDATION: ["euelections_dev2019"],
    },
)
builder = tfds.builder("wmt_translate", config=config)
  • Trang chủ : http://www.statmt.org/wmt13/translation-task.html

  • Mã nguồn : tfds.translate.Wmt13Translate

  • Các phiên bản :

    • 1.0.0 (mặc định): Không có ghi chú phát hành.
  • Hướng dẫn tải xuống thủ công: Tập dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
    Một số cấu hình wmt ở đây, yêu cầu tải xuống thủ công. Vui lòng xem wmt.py để xem đường dẫn chính xác (và tên tệp) phải được tải xuống.

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Hình ( tfds.show_examples ): Không được hỗ trợ.

  • Trích dẫn :

@InProceedings{bojar-EtAl:2013:WMT,
  author    = {Bojar, Ondrej  and  Buck, Christian  and  Callison-Burch, Chris  and  Federmann, Christian  and  Haddow, Barry  and  Koehn, Philipp  and  Monz, Christof  and  Post, Matt  and  Soricut, Radu  and  Specia, Lucia},
  title     = {Findings of the 2013 {Workshop on Statistical Machine Translation} },
  booktitle = {Proceedings of the Eighth Workshop on Statistical Machine Translation},
  month     = {August},
  year      = {2013},
  address   = {Sofia, Bulgaria},
  publisher = {Association for Computational Linguistics},
  pages     = {1--44},
  url       = {http://www.aclweb.org/anthology/W13-2201}
}

wmt13_translate / cs-en (cấu hình mặc định)

  • Mô tả cấu hình : Tập dữ liệu tác vụ dịch cs-en WMT 2013.

  • Kích thước tải xuống : 1.59 GiB

  • Kích thước tập dữ liệu : 2.89 GiB

  • Tách :

Tách ra Các ví dụ
'test' 3.000
'train' 15.780.759
'validation' 13.573
  • Các tính năng :
Translation({
    'cs': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

wmt13_translate / de-en

  • Mô tả cấu hình : Tập dữ liệu nhiệm vụ dịch de-en WMT 2013.

  • Kích thước tải xuống : 1.59 GiB

  • Kích thước tập dữ liệu : 1.36 GiB

  • Tách :

Tách ra Các ví dụ
'test' 3.000
'train' 4.485.758
'validation' 13.573
  • Các tính năng :
Translation({
    'de': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

wmt13_translate / fr-en

  • Mô tả cấu hình : Tập dữ liệu tác vụ dịch WMT 2013 fr-en.

  • Kích thước tải xuống : 6.21 GiB

  • Kích thước tập dữ liệu : 14.64 GiB

  • Tách :

Tách ra Các ví dụ
'test' 3.000
'train' 40.810.860
'validation' 13.573
  • Các tính năng :
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'fr': Text(shape=(), dtype=tf.string),
})

wmt13_translate / es-en

  • Mô tả cấu hình : Tập dữ liệu tác vụ dịch es-en của WMT 2013.

  • Kích thước tải xuống : 3.79 GiB

  • Kích thước tập dữ liệu : 5.24 GiB

  • Tách :

Tách ra Các ví dụ
'test' 3.000
'train' 15.176.790
'validation' 13.573
  • Các tính năng :
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'es': Text(shape=(), dtype=tf.string),
})

wmt13_translate / ru-en

  • Mô tả cấu hình : Tập dữ liệu tác vụ dịch ru-en WMT 2013.

  • Kích thước tải xuống : 1010.20 MiB

  • Kích thước tập dữ liệu: 833.67 MiB

  • Tách :

Tách ra Các ví dụ
'test' 3.000
'train' 2.471.670
'validation' 3.003
  • Các tính năng :
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'ru': Text(shape=(), dtype=tf.string),
})