- 説明:
XQuAD (Cross-lingual Question Answering Dataset) は、クロスリンガルの質問応答パフォーマンスを評価するためのベンチマーク データセットです。このデータセットは、SQuAD v1.1 (Rajpurkar et al., 2016) の開発セットからの 240 の段落と 1190 の質問と回答のペアのサブセットと、スペイン語、ドイツ語、ギリシャ語、ロシア語、トルコ語の 10 言語への専門的な翻訳で構成されています。 、アラビア語、ベトナム語、タイ語、中国語、ヒンディー語。したがって、データセットは 11 の言語で完全に並列化されています。デフォルトのゼロ ショット設定で XQuAD を実行するには、 https ://www.tensorflow.org/datasets/catalog/squad の SQuAD v1.1 トレーニングおよび検証データを使用します。
また、XTREME (Hu et al., 2020) の英語以外の各言語の「translate-train」、「translate-dev」、および「translate-test」分割も含まれています。これらは、「translate-train」または「translate-test」設定で XQuAD を実行するために使用できます。
追加のドキュメント:コード を使用したペーパーの探索
ソースコード:
tfds.question_answering.Xquad
バージョン:
-
3.0.0
(デフォルト): コンテキストの空白の削除が原因で回答範囲がずれている多くの例の問題を修正します。この変更は、テスト例の約 14% に影響します。
-
機能構造:
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
答え | 順序 | |||
回答/answer_start | テンソル | int32 | ||
回答/テキスト | 文章 | ストリング | ||
環境 | 文章 | ストリング | ||
ID | テンソル | ストリング | ||
質問 | 文章 | ストリング | ||
題名 | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):None
図( tfds.show_examples ): サポートされていません。
引用:
@article{Artetxe:etal:2019,
author = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
title = {On the cross-lingual transferability of monolingual representations},
journal = {CoRR},
volume = {abs/1910.11856},
year = {2019},
archivePrefix = {arXiv},
eprint = {1910.11856}
}
xquad/ar (デフォルト構成)
構成の説明: XTREME から機械翻訳された translate-train/translate-dev/translate-test 分割を使用した XQuAD 'ar' テスト分割 (Hu et al., 2020)。
ダウンロードサイズ:
420.97 MiB
データセットのサイズ:
134.83 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,190 |
'translate-dev' | 10,541 |
'translate-test' | 1,151 |
'translate-train' | 86,787 |
- 例( tfds.as_dataframe ):
xquad/de
構成の説明: XTREME から機械翻訳された translate-train/translate-dev/translate-test 分割を使用した XQuAD の「de」テスト分割 (Hu et al., 2020)。
ダウンロードサイズ:
127.04 MiB
データセットサイズ:
98.80 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,190 |
'translate-dev' | 10,371 |
'translate-test' | 1,168 |
'translate-train' | 82,603 |
- 例( tfds.as_dataframe ):
xquad/el
構成の説明: XTREME から機械翻訳された translate-train/translate-dev/translate-test 分割を使用した XQuAD 'el' テスト分割 (Hu et al., 2020)。
ダウンロードサイズ:
499.40 MiB
データセットのサイズ:
157.90 MiB
自動キャッシュ( documentation ): はい (test、translate-dev、translate-test)、
shuffle_files=False
の場合のみ (translate-train)スプリット:
スプリット | 例 |
---|---|
'test' | 1,190 |
'translate-dev' | 10,100 |
'translate-test' | 1,182 |
'translate-train' | 79,946 |
- 例( tfds.as_dataframe ):
xquad/es
構成の説明: XTREME から機械翻訳された translate-train/translate-dev/translate-test 分割を使用した XQuAD 'es' テスト分割 (Hu et al., 2020)。
ダウンロードサイズ:
138.41 MiB
データセットのサイズ:
104.96 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,190 |
'translate-dev' | 10,566 |
'translate-test' | 1,188 |
'translate-train' | 87,488 |
- 例( tfds.as_dataframe ):
xquad/ハイ
構成の説明: XTREME から機械翻訳された translate-train/translate-dev/translate-test 分割を使用した XQuAD 'hi' テスト分割 (Hu et al., 2020)。
ダウンロードサイズ:
472.23 MiB
データセットサイズ:
207.85 MiB
自動キャッシュ( documentation ): はい (test、translate-dev、translate-test)、
shuffle_files=False
の場合のみ (translate-train)スプリット:
スプリット | 例 |
---|---|
'test' | 1,190 |
'translate-dev' | 10,536 |
'translate-test' | 1,184 |
'translate-train' | 85,804 |
- 例( tfds.as_dataframe ):
xquad/ru
構成の説明: XTREME から機械翻訳された translate-train/translate-dev/translate-test 分割を使用した XQuAD 'ru' テスト分割 (Hu et al., 2020)。
ダウンロードサイズ:
513.80 MiB
データセットのサイズ:
159.38 MiB
自動キャッシュ( documentation ): はい (test、translate-dev、translate-test)、
shuffle_files=False
の場合のみ (translate-train)スプリット:
スプリット | 例 |
---|---|
'test' | 1,190 |
'translate-dev' | 10,469 |
'translate-test' | 1,190 |
'translate-train' | 84,869 |
- 例( tfds.as_dataframe ):
xquad/th
構成の説明: XTREME から機械翻訳された translate-train/translate-dev/translate-test 分割を使用した XQuAD の「th」テスト分割 (Hu et al., 2020)。
ダウンロードサイズ:
461.54 MiB
データセットサイズ:
199.57 MiB
自動キャッシュ( documentation ): はい (test、translate-dev、translate-test)、
shuffle_files=False
の場合のみ (translate-train)スプリット:
スプリット | 例 |
---|---|
'test' | 1,190 |
'translate-dev' | 10,516 |
'translate-test' | 1,157 |
'translate-train' | 85,846 |
- 例( tfds.as_dataframe ):
xquad/tr
構成の説明: XTREME から機械翻訳された translate-train/translate-dev/translate-test 分割を使用した XQuAD 'tr' テスト分割 (Hu et al., 2020)。
ダウンロードサイズ:
151.08 MiB
データセットサイズ:
97.56 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,190 |
'translate-dev' | 10,535 |
'translate-test' | 1,112 |
'translate-train' | 86,511 |
- 例( tfds.as_dataframe ):
xquad/vi
構成の説明: XTREME から機械翻訳された translate-train/translate-dev/translate-test 分割を使用した XQuAD 'vi' テスト分割 (Hu et al., 2020)。
ダウンロードサイズ:
218.09 MiB
データセットサイズ:
120.03 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,190 |
'translate-dev' | 10,555 |
'translate-test' | 1,178 |
'translate-train' | 87,187 |
- 例( tfds.as_dataframe ):
xquad/zh
構成の説明: XTREME から機械翻訳された translate-train/translate-dev/translate-test 分割を使用した XQuAD 'zh' テスト分割 (Hu et al., 2020)。
ダウンロードサイズ:
174.57 MiB
データセットのサイズ:
80.79 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,190 |
'translate-dev' | 10,475 |
'translate-test' | 1,186 |
'translate-train' | 85,700 |
- 例( tfds.as_dataframe ):
xquad/ja
構成の説明: XQuAD 'en' テスト分割。
ダウンロードサイズ:
595.10 KiB
データセットサイズ:
1.19 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,190 |
- 例( tfds.as_dataframe ):