- Mô tả :
OPUS là một bộ sưu tập các văn bản dịch từ trang web.
Tạo cấu hình của riêng bạn để chọn cặp dữ liệu/ngôn ngữ nào sẽ tải.
config = tfds.translate.opus.OpusConfig(
version=tfds.core.Version('0.1.0'),
language_pair=("de", "en"),
subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : http://opus.nlpl.eu/
Mã nguồn :
tfds.datasets.opus.Builder
Phiên bản :
-
0.1.0
(mặc định): Không có ghi chú phát hành.
-
Cấu trúc tính năng :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
de | Chữ | sợi dây | ||
vi | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('de', 'en')
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@inproceedings{Tiedemann2012ParallelData,
author = {Tiedemann, J},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {LREC}
year = {2012} }
opus/y tế (cấu hình mặc định)
Mô tả cấu hình : tài liệu y tế
Kích thước tải xuống :
34.29 MiB
Kích thước tập dữ liệu :
188.85 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi
shuffle_files=False
(đào tạo)Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.108.752 |
- Ví dụ ( tfds.as_dataframe ):
opus / pháp luật
Mô tả cấu hình : văn bản luật
Kích thước tải xuống :
46.99 MiB
Kích thước tập dữ liệu :
214.44 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi
shuffle_files=False
(đào tạo)Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 719,372 |
- Ví dụ ( tfds.as_dataframe ):
tác phẩm/kinh Koran
Mô tả cấu hình : tài liệu kinh Koran
Kích thước tải xuống :
35.42 MiB
Kích thước tập dữ liệu :
117.54 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 537.128 |
- Ví dụ ( tfds.as_dataframe ):
tác phẩm/CNTT
Mô tả cấu hình : Tài liệu CNTT
Kích thước tải xuống :
10.33 MiB
Kích thước tập dữ liệu :
42.51 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 347,817 |
- Ví dụ ( tfds.as_dataframe ):
opus/phụ đề
Mô tả cấu hình : tài liệu phụ đề
Kích thước tải xuống :
677.64 MiB
Kích thước tập dữ liệu :
2.01 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 22.512.639 |
- Ví dụ ( tfds.as_dataframe ):