wmt19_translate

  • Mô tả :

Dịch tập dữ liệu dựa trên dữ liệu từ statmt.org.

Các phiên bản tồn tại cho các năm khác nhau bằng cách sử dụng kết hợp nhiều nguồn dữ liệu. Cơ sở wmt_translate cho phép bạn tạo cấu hình của riêng mình để chọn cặp dữ liệu/ngôn ngữ của riêng bạn bằng cách tạo tfds.translate.wmt.WmtConfig tùy chỉnh.

config = tfds.translate.wmt.WmtConfig(
    version="0.0.1",
    language_pair=("fr", "de"),
    subsets={
        tfds.Split.TRAIN: ["commoncrawl_frde"],
        tfds.Split.VALIDATION: ["euelections_dev2019"],
    },
)
builder = tfds.builder("wmt_translate", config=config)
  • Trang chủ : http://www.statmt.org/wmt19/translation-task.html

  • Mã nguồn : tfds.translate.Wmt19Translate

  • Phiên bản :

    • 1.0.0 (mặc định): Không có ghi chú phát hành.
  • Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
    Một số cấu hình wmt ở đây, yêu cầu tải xuống thủ công. Vui lòng xem wmt.py để xem đường dẫn chính xác (và tên tệp) phải được tải xuống.

  • Hình ( tfds.show_examples ): Không được hỗ trợ.

  • trích dẫn :

@ONLINE {wmt19translate,
    author = "Wikimedia Foundation",
    title  = "ACL 2019 Fourth Conference on Machine Translation (WMT19), Shared Task: Machine Translation of News",
    url    = "http://www.statmt.org/wmt19/translation-task.html"
}

wmt19_translate/cs-en (cấu hình mặc định)

  • Mô tả cấu hình : Bộ dữ liệu tác vụ dịch WMT 2019 cs-en.

  • Kích thước tải xuống : 1.88 GiB

  • Kích thước tập dữ liệu : 3.64 GiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 20.246.548
'validation' 2,983
  • Cấu trúc tính năng :
Translation({
    'cs': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
cs Chữ sợi dây
vi Chữ sợi dây

wmt19_translate/de-en

  • Mô tả cấu hình : Bộ dữ liệu nhiệm vụ dịch mã WMT 2019.

  • Kích thước tải xuống : 9.71 GiB

  • Kích thước tập dữ liệu : 8.60 GiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 38.690.334
'validation' 2.998
  • Cấu trúc tính năng :
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
de Chữ sợi dây
vi Chữ sợi dây

wmt19_translate/fi-en

  • Mô tả cấu hình : Bộ dữ liệu tác vụ dịch fi-en WMT 2019.

  • Kích thước tải xuống : 959.46 MiB

  • Kích thước tập dữ liệu : 1.46 GiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 6.587.448
'validation' 3.000
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=string),
    'fi': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
vi Chữ sợi dây
fi Chữ sợi dây

wmt19_translate/gu-en

  • Mô tả cấu hình : Bộ dữ liệu tác vụ dịch gu-en WMT 2019.

  • Kích thước tải xuống : 37.03 MiB

  • Kích thước tập dữ liệu : 1.55 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 11.670
'validation' 1.998
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=string),
    'gu': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
vi Chữ sợi dây
gu Chữ sợi dây

wmt19_translate/kk-vi

  • Mô tả cấu hình : Bộ dữ liệu tác vụ dịch WMT 2019 kk-en.

  • Kích thước tải xuống : 39.58 MiB

  • Kích thước tập dữ liệu : 11.82 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 126,583
'validation' 2.066
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=string),
    'kk': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
vi Chữ sợi dây
kkk Chữ sợi dây

wmt19_translate/lt-vi

  • Mô tả cấu hình : Bộ dữ liệu tác vụ dịch lt-en WMT 2019.

  • Kích thước tải xuống : 392.20 MiB

  • Kích thước tập dữ liệu : 537.26 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 2.344.893
'validation' 2.000
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=string),
    'lt': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
vi Chữ sợi dây
trung úy Chữ sợi dây

wmt19_translate/ru-en

  • Mô tả cấu hình : Bộ dữ liệu tác vụ dịch ru-en WMT 2019.

  • Kích thước tải xuống : 1.57 GiB

  • Kích thước tập dữ liệu : 13.95 GiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 38.492.126
'validation' 3.000
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=string),
    'ru': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
vi Chữ sợi dây
ru Chữ sợi dây

wmt19_translate/zh-en

  • Mô tả cấu hình : Bộ dữ liệu tác vụ dịch WMT 2019 zh-en.

  • Kích thước tải xuống : 770.91 MiB

  • Kích thước tập dữ liệu : 6.49 GiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 25.986.436
'validation' 3,981
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=string),
    'zh': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
vi Chữ sợi dây
zh Chữ sợi dây

wmt19_translate/fr-de

  • Mô tả cấu hình : Bộ dữ liệu tác vụ dịch WMT 2019 fr-de.

  • Kích thước tải xuống : 722.20 MiB

  • Kích thước tập dữ liệu : 2.39 GiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 9.824.476
'validation' 1.512
  • Cấu trúc tính năng :
Translation({
    'de': Text(shape=(), dtype=string),
    'fr': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
de Chữ sợi dây
bạn thân Chữ sợi dây