- 説明:
このデータは、2018 年 11 月 17 日土曜日の Tatoeba コーパスから抽出されたものです。
言語ごとに、1000 の英文とその翻訳が選択されています (利用可能な場合)。言語、そのファミリ、およびスクリプトの説明、およびベースラインの結果については、このペーパーを確認してください。
英語の文章は、すべての言語ペアで同一ではないことに注意してください。これは、結果が言語間で直接比較できないことを意味します。
ホームページ: http://opus.nlpl.eu/Tatoeba.php
ソースコード:
tfds.datasets.tatoeba.Builderバージョン:
-
1.0.0(デフォルト): 初期リリース。
-
自動キャッシュ(ドキュメント): はい
機能構造:
FeaturesDict({
'source_language': Text(shape=(), dtype=string),
'source_sentence': Text(shape=(), dtype=string),
'target_language': Text(shape=(), dtype=string),
'target_sentence': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
| 特徴 | クラス | 形 | Dtype | 説明 |
|---|---|---|---|---|
| 特徴辞書 | ||||
| ソース言語 | 文章 | 弦 | ||
| source_sentence | 文章 | 弦 | ||
| 目標とする言語 | 文章 | 弦 | ||
| target_sentence | 文章 | 弦 |
監視されたキー(
as_superviseddocを参照):None図( tfds.show_examples ): サポートされていません。
引用:
@article{tatoeba,
title={Massively Multilingual Sentence Embeddings for Zero-Shot
Cross-Lingual Transfer and Beyond},
author={Mikel, Artetxe and Holger, Schwenk,},
journal={arXiv:1812.10464v2},
year={2018}
}
@InProceedings{TIEDEMANN12.463,
author = {J{\"o}rg}rg Tiedemann},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)},
year = {2012},
month = {may},
date = {23-25},
address = {Istanbul, Turkey},
editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Mehmet Ugur Dogan and Bente Maegaard and Joseph Mariani and Jan Odijk and Stelios Piperidis},
publisher = {European Language Resources Association (ELRA)},
isbn = {978-2-9517408-7-7},
language = {english}
}
tatoeba/tatoeba_af (デフォルト設定)
ダウンロードサイズ:
58.24 KiBデータセットサイズ:
162.74 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 1,000 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_ar
ダウンロードサイズ:
70.95 KiBデータセットサイズ:
175.46 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 1,000 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_bg
ダウンロードサイズ:
99.88 KiBデータセットサイズ:
204.64 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 1,000 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_bn
ダウンロードサイズ:
89.55 KiBデータセットサイズ:
194.24 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 1,000 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_de
ダウンロードサイズ:
103.09 KiBデータセットサイズ:
207.93 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 1,000 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_el
ダウンロードサイズ:
77.11 KiBデータセットサイズ:
181.65 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 1,000 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_es
ダウンロードサイズ:
70.57 KiBデータセットサイズ:
175.12 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 1,000 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_et
ダウンロードサイズ:
58.33 KiBデータセットサイズ:
162.85 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 1,000 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_eu
ダウンロードサイズ:
64.52 KiBデータセットサイズ:
169.02 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 1,000 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_fa
ダウンロードサイズ:
91.52 KiBデータセットサイズ:
196.15 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 1,000 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_fi
ダウンロードサイズ:
73.90 KiBデータセットサイズ:
178.47 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 1,000 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_fr
ダウンロードサイズ:
78.14 KiBデータセットサイズ:
182.68 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 1,000 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_he
ダウンロードサイズ:
81.54 KiBデータセットサイズ:
186.15 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 1,000 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_hi
ダウンロードサイズ:
119.69 KiBデータセットサイズ:
224.89 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 1,000 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_hu
ダウンロードサイズ:
67.27 KiBデータセットサイズ:
171.78 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 1,000 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_id
ダウンロードサイズ:
73.09 KiBデータセットサイズ:
177.61 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 1,000 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_it
ダウンロードサイズ:
64.29 KiBデータセットサイズ:
168.81 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 1,000 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_ja
ダウンロードサイズ:
90.90 KiBデータセットサイズ:
195.53 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 1,000 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_jv
ダウンロードサイズ:
13.59 KiBデータセットサイズ:
35.01 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 205 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_ka
ダウンロードサイズ:
70.47 KiBデータセットサイズ:
148.67 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 746 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_kk
ダウンロードサイズ:
46.07 KiBデータセットサイズ:
106.25 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 575 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_ko
ダウンロードサイズ:
77.28 KiBデータセットサイズ:
181.88 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 1,000 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_ml
ダウンロードサイズ:
92.50 KiBデータセットサイズ:
165.14 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 687 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_mr
ダウンロードサイズ:
98.19 KiBデータセットサイズ:
202.96 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 1,000 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_nl
ダウンロードサイズ:
71.55 KiBデータセットサイズ:
176.10 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 1,000 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_pt
ダウンロードサイズ:
73.42 KiBデータセットサイズ:
177.95 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 1,000 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_ru
ダウンロードサイズ:
90.30 KiBデータセットサイズ:
194.92 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 1,000 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_sw
ダウンロードサイズ:
19.99 KiBデータセットサイズ:
60.75 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 390 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_ta
ダウンロードサイズ:
38.52 KiBデータセットサイズ:
70.93 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 307 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_te
ダウンロードサイズ:
24.55 KiBデータセットサイズ:
49.07 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 234 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_th
ダウンロードサイズ:
61.72 KiBデータセットサイズ:
119.32 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 548 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_tl
ダウンロードサイズ:
66.54 KiBデータセットサイズ:
171.04 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 1,000 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_tr
ダウンロードサイズ:
70.20 KiBデータセットサイズ:
174.70 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 1,000 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_ur
ダウンロードサイズ:
86.63 KiBデータセットサイズ:
191.20 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 1,000 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_vi
ダウンロードサイズ:
89.26 KiBデータセットサイズ:
193.89 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 1,000 |
- 例( tfds.as_dataframe ):
tatoeba/tatoeba_zh
ダウンロードサイズ:
67.32 KiBデータセットサイズ:
171.85 KiBスプリット:
| スプリット | 例 |
|---|---|
'train' | 1,000 |
- 例( tfds.as_dataframe ):