- 説明:
低リソースの機械翻訳の評価データセット: ネパール語-英語およびシンハラ語-英語。
追加のドキュメント:コード を使用したペーパーの探索
ソースコード:
tfds.translate.Flores
バージョン:
-
1.2.0
(デフォルト): リリース ノートはありません。
-
ダウンロードサイズ:
1.47 MiB
自動キャッシュ(ドキュメント): はい
図( tfds.show_examples ): サポートされていません。
引用:
@misc{guzmn2019new,
title={Two New Evaluation Datasets for Low-Resource Machine Translation: Nepali-English and Sinhala-English},
author={Francisco Guzman and Peng-Jen Chen and Myle Ott and Juan Pino and Guillaume Lample and Philipp Koehn and Vishrav Chaudhary and Marc'Aurelio Ranzato},
year={2019},
eprint={1902.01382},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
flores/neen (デフォルト設定)
構成の説明: ne から en への翻訳データセット。
データセットサイズ:
1.89 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 2,835 |
'validation' | 2,559 |
- 機能構造:
Translation({
'en': Text(shape=(), dtype=string),
'ne': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
ja | 文章 | ストリング | ||
ねえ | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('ne', 'en')
例( tfds.as_dataframe ):
フローレス/シエン
構成の説明: si から en への翻訳データセット。
データセットサイズ:
2.05 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 2,766 |
'validation' | 2,898 |
- 機能構造:
Translation({
'en': Text(shape=(), dtype=string),
'si': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
ja | 文章 | ストリング | ||
シ | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('si', 'en')
例( tfds.as_dataframe ):