opus

 • Mô tả :

OPUS là một bộ sưu tập các văn bản được dịch từ web.

Tạo cấu hình của riêng bạn để chọn cặp dữ liệu / ngôn ngữ để tải.

config = tfds.translate.opus.OpusConfig(
  version=tfds.core.Version('0.1.0'),
  language_pair=("de", "en"),
  subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
Translation({
  'de': Text(shape=(), dtype=tf.string),
  'en': Text(shape=(), dtype=tf.string),
})
 • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Dịch
de Chữ tf.string
en Chữ tf.string
@inproceedings{Tiedemann2012ParallelData,
 author = {Tiedemann, J},
 title = {Parallel Data, Tools and Interfaces in OPUS},
 booktitle = {LREC}
 year = {2012} }

opus / y tế (cấu hình mặc định)

 • Mô tả cấu hình : tài liệu y tế

 • Kích thước tải xuống : 34.29 MiB

 • Kích thước tập dữ liệu: 188.85 MiB

 • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi shuffle_files=False (huấn luyện)

 • Tách :

Tách ra Các ví dụ
'train' 1.108.752

opus / luật

 • Mô tả cấu hình : văn bản luật

 • Kích thước tải xuống : 46.99 MiB

 • Kích thước tập dữ liệu: 214.44 MiB

 • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi shuffle_files=False (huấn luyện)

 • Tách :

Tách ra Các ví dụ
'train' 719.372

opus / koran

 • Mô tả cấu hình : tài liệu koran

 • Kích thước tải xuống : 35.42 MiB

 • Kích thước tập dữ liệu: 117.54 MiB

 • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

 • Tách :

Tách ra Các ví dụ
'train' 537.128

opus / CNTT

 • Mô tả cấu hình : Tài liệu CNTT

 • Kích thước tải xuống : 10.33 MiB

 • Kích thước tập dữ liệu: 42.51 MiB

 • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

 • Tách :

Tách ra Các ví dụ
'train' 347.817

opus / phụ đề

 • Mô tả cấu hình : tài liệu phụ đề

 • Kích thước tải xuống : 677.64 MiB

 • Kích thước tập dữ liệu : 2.01 GiB

 • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

 • Tách :

Tách ra Các ví dụ
'train' 22.512.639