- 説明:
OPUS は Web から翻訳されたテキストのコレクションです。
独自の構成を作成して、ロードするデータと言語のペアを選択します。
config = tfds.translate.opus.OpusConfig(
version=tfds.core.Version('0.1.0'),
language_pair=("de", "en"),
subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
追加のドキュメント:コードを使用したペーパーの探索
ホームページ: http://opus.nlpl.eu/
ソースコード:
tfds.datasets.opus.Builderバージョン:
-
0.1.0(デフォルト): リリース ノートはありません。
-
機能構造:
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
| 特徴 | クラス | 形 | Dtype | 説明 |
|---|---|---|---|---|
| 翻訳 | ||||
| で | 文章 | ストリング | ||
| ja | 文章 | ストリング |
監視されたキー(
as_superviseddocを参照):('de', 'en')図( tfds.show_examples ): サポートされていません。
引用:
@inproceedings{Tiedemann2012ParallelData,
author = {Tiedemann, J},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {LREC}
year = {2012} }
opus/medical (デフォルト設定)
構成の説明: 医療文書
ダウンロードサイズ:
34.29 MiBデータセットサイズ:
188.85 MiB自動キャッシュ(ドキュメント):
shuffle_files=Falseの場合のみ (トレーニング)スプリット:
| スプリット | 例 |
|---|---|
'train' | 1,108,752 |
- 例( tfds.as_dataframe ):
作品/法律
構成の説明: 法律文書
ダウンロードサイズ:
46.99 MiBデータセットのサイズ:
214.44 MiB自動キャッシュ(ドキュメント):
shuffle_files=Falseの場合のみ (トレーニング)スプリット:
| スプリット | 例 |
|---|---|
'train' | 719,372 |
- 例( tfds.as_dataframe ):
オーパス/コーラン
構成の説明: コーラン文書
ダウンロードサイズ:
35.42 MiBデータセットのサイズ:
117.54 MiB自動キャッシュ(ドキュメント): はい
スプリット:
| スプリット | 例 |
|---|---|
'train' | 537,128 |
- 例( tfds.as_dataframe ):
作品/IT
構成の説明: IT ドキュメント
ダウンロードサイズ:
10.33 MiBデータセットサイズ:
42.51 MiB自動キャッシュ(ドキュメント): はい
スプリット:
| スプリット | 例 |
|---|---|
'train' | 347,817 |
- 例( tfds.as_dataframe ):
作品/字幕
構成の説明: 字幕ドキュメント
ダウンロードサイズ:
677.64 MiBデータセットサイズ:
2.01 GiB自動キャッシュ(ドキュメント): いいえ
スプリット:
| スプリット | 例 |
|---|---|
'train' | 22,512,639 |
- 例( tfds.as_dataframe ):