バック
コレクションでコンテンツを整理
必要に応じて、コンテンツの保存と分類を行います。
比較可能なコーパス内の対訳文の識別。 2 つの文に分割された単一言語コーパスが与えられた場合、参加者システムは、互いの翻訳である文のペアを識別することが期待されます。
BUCC マイニング タスクは、2 つの単一言語コーパスから、それらのサブセットが並列であると想定された並列文抽出に関する共有タスクであり、2016 年から利用可能になっています。共有タスクは、言語ペアごとに、各言語の単一言語コーパスを提供し、真の翻訳ペアを含むゴールド マッピング リスト。これらのペアはグラウンド トゥルースです。タスクは、単一言語コーパスから翻訳ペアのリストを作成することです。構築されたリストはグラウンド トゥルースと比較され、F1 尺度で評価されます。
FeaturesDict({
'source_id': Text(shape=(), dtype=string),
'source_sentence': Text(shape=(), dtype=string),
'target_id': Text(shape=(), dtype=string),
'target_sentence': Text(shape=(), dtype=string),
})
特徴 | クラス | 形 | Dtype | 説明 |
---|
| 特徴辞書 | | | |
source_id | 文章 | | ストリング | |
source_sentence | 文章 | | ストリング | |
target_id | 文章 | | ストリング | |
target_sentence | 文章 | | ストリング | |
@inproceedings{zweigenbaum2018overview,
title={Overview of the third BUCC shared task: Spotting parallel sentences in comparable corpora},
author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
pages={39--42},
year={2018}
}
bucc/bucc_de (デフォルト設定)
ダウンロード サイズ: 29.30 MiB
データセットサイズ: 3.21 MiB
スプリット:
スプリット | 例 |
---|
'test' | 9,580 |
'validation' | 1,038人 |
bucc/bucc_fr
ダウンロードサイズ: 21.65 MiB
データセットのサイズ: 2.90 MiB
スプリット:
スプリット | 例 |
---|
'test' | 9,086 |
'validation' | 929 |
bucc/bucc_zh
ダウンロードサイズ: 6.79 MiB
データセットサイズ: 615.20 KiB
スプリット:
スプリット | 例 |
---|
'test' | 1,899 |
'validation' | 257 |
bucc/bucc_ru
ダウンロードサイズ: 39.44 MiB
データセットサイズ: 6.36 MiB
スプリット:
スプリット | 例 |
---|
'test' | 14,435 |
'validation' | 2,374 |
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2022-12-06 UTC。
[null,null,["最終更新日 2022-12-06 UTC。"],[],[],null,["# bucc\n\n\u003cbr /\u003e\n\n- **Description**:\n\nIdentifying parallel sentences in comparable corpora. Given two sentence-split\nmonolingual corpora, participant systems are expected to identify pairs of\nsentences that are translations of each other.\n\nThe BUCC mining task is a shared task on parallel sentence extraction from two\nmonolingual corpora with a subset of them assumed to be parallel, and that has\nbeen available since 2016. For each language pair, the shared task provides a\nmonolingual corpus for each language and a gold mapping list containing true\ntranslation pairs. These pairs are the ground truth. The task is to construct a\nlist of translation pairs from the monolingual corpora. The constructed list is\ncompared to the ground truth, and evaluated in terms of the F1 measure.\n\n- **Homepage** :\n \u003chttps://comparable.limsi.fr/bucc2018/\u003e\n\n- **Source code** :\n [`tfds.datasets.bucc.Builder`](https://github.com/tensorflow/datasets/tree/master/tensorflow_datasets/datasets/bucc/bucc_dataset_builder.py)\n\n- **Versions**:\n\n - **`1.0.0`** (default): Initial release.\n- **Auto-cached**\n ([documentation](https://www.tensorflow.org/datasets/performances#auto-caching)):\n Yes\n\n- **Feature structure**:\n\n FeaturesDict({\n 'source_id': Text(shape=(), dtype=string),\n 'source_sentence': Text(shape=(), dtype=string),\n 'target_id': Text(shape=(), dtype=string),\n 'target_sentence': Text(shape=(), dtype=string),\n })\n\n- **Feature documentation**:\n\n| Feature | Class | Shape | Dtype | Description |\n|-----------------|--------------|-------|--------|-------------|\n| | FeaturesDict | | | |\n| source_id | Text | | string | |\n| source_sentence | Text | | string | |\n| target_id | Text | | string | |\n| target_sentence | Text | | string | |\n\n- **Supervised keys** (See\n [`as_supervised` doc](https://www.tensorflow.org/datasets/api_docs/python/tfds/load#args)):\n `None`\n\n- **Figure**\n ([tfds.show_examples](https://www.tensorflow.org/datasets/api_docs/python/tfds/visualization/show_examples)):\n Not supported.\n\n- **Citation**:\n\n @inproceedings{zweigenbaum2018overview,\n title={Overview of the third BUCC shared task: Spotting parallel sentences in comparable corpora},\n author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},\n booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},\n pages={39--42},\n year={2018}\n }\n\nbucc/bucc_de (default config)\n-----------------------------\n\n- **Download size** : `29.30 MiB`\n\n- **Dataset size** : `3.21 MiB`\n\n- **Splits**:\n\n| Split | Examples |\n|----------------|----------|\n| `'test'` | 9,580 |\n| `'validation'` | 1,038 |\n\n- **Examples** ([tfds.as_dataframe](https://www.tensorflow.org/datasets/api_docs/python/tfds/as_dataframe)):\n\nDisplay examples... \n\nbucc/bucc_fr\n------------\n\n- **Download size** : `21.65 MiB`\n\n- **Dataset size** : `2.90 MiB`\n\n- **Splits**:\n\n| Split | Examples |\n|----------------|----------|\n| `'test'` | 9,086 |\n| `'validation'` | 929 |\n\n- **Examples** ([tfds.as_dataframe](https://www.tensorflow.org/datasets/api_docs/python/tfds/as_dataframe)):\n\nDisplay examples... \n\nbucc/bucc_zh\n------------\n\n- **Download size** : `6.79 MiB`\n\n- **Dataset size** : `615.20 KiB`\n\n- **Splits**:\n\n| Split | Examples |\n|----------------|----------|\n| `'test'` | 1,899 |\n| `'validation'` | 257 |\n\n- **Examples** ([tfds.as_dataframe](https://www.tensorflow.org/datasets/api_docs/python/tfds/as_dataframe)):\n\nDisplay examples... \n\nbucc/bucc_ru\n------------\n\n- **Download size** : `39.44 MiB`\n\n- **Dataset size** : `6.36 MiB`\n\n- **Splits**:\n\n| Split | Examples |\n|----------------|----------|\n| `'test'` | 14,435 |\n| `'validation'` | 2,374 |\n\n- **Examples** ([tfds.as_dataframe](https://www.tensorflow.org/datasets/api_docs/python/tfds/as_dataframe)):\n\nDisplay examples..."]]