xquad

  • 説明:

XQuAD (Cross-lingual Question Answering Dataset) は、クロスリンガルの質問応答パフォーマンスを評価するためのベンチマーク データセットです。このデータセットは、SQuAD v1.1 (Rajpurkar et al., 2016) の開発セットからの 240 の段落と 1190 の質問と回答のペアのサブセットと、スペイン語、ドイツ語、ギリシャ語、ロシア語、トルコ語の 10 言語への専門的な翻訳で構成されています。 、アラビア語、ベトナム語、タイ語、中国語、ヒンディー語。したがって、データセットは 11 の言語で完全に並列化されています。デフォルトのゼロ ショット設定で XQuAD を実行するには、 https ://www.tensorflow.org/datasets/catalog/squad の SQuAD v1.1 トレーニングおよび検証データを使用します。

また、XTREME (Hu et al., 2020) の英語以外の各言語の「translate-train」、「translate-dev」、および「translate-test」分割も含まれています。これらは、「translate-train」または「translate-test」設定で XQuAD を実行するために使用できます。

FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
答え順序
回答/answer_startテンソルint32
回答/テキスト文章ストリング
環境文章ストリング
IDテンソルストリング
質問文章ストリング
題名文章ストリング
@article{Artetxe:etal:2019,
      author    = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
      title     = {On the cross-lingual transferability of monolingual representations},
      journal   = {CoRR},
      volume    = {abs/1910.11856},
      year      = {2019},
      archivePrefix = {arXiv},
      eprint    = {1910.11856}
}

xquad/ar (デフォルト構成)

  • 構成の説明: XTREME から機械翻訳された translate-train/translate-dev/translate-test 分割を使用した XQuAD 'ar' テスト分割 (Hu et al., 2020)。

  • ダウンロードサイズ: 420.97 MiB

  • データセットのサイズ: 134.83 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'test' 1,190
'translate-dev' 10,541
'translate-test' 1,151
'translate-train' 86,787

xquad/de

  • 構成の説明: XTREME から機械翻訳された translate-train/translate-dev/translate-test 分割を使用した XQuAD の「de」テスト分割 (Hu et al., 2020)。

  • ダウンロードサイズ: 127.04 MiB

  • データセットサイズ: 98.80 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'test' 1,190
'translate-dev' 10,371
'translate-test' 1,168
'translate-train' 82,603

xquad/el

  • 構成の説明: XTREME から機械翻訳された translate-train/translate-dev/translate-test 分割を使用した XQuAD 'el' テスト分割 (Hu et al., 2020)。

  • ダウンロードサイズ: 499.40 MiB

  • データセットのサイズ: 157.90 MiB

  • 自動キャッシュ( documentation ): はい (test、translate-dev、translate-test)、 shuffle_files=Falseの場合のみ (translate-train)

  • スプリット:

スプリット
'test' 1,190
'translate-dev' 10,100
'translate-test' 1,182
'translate-train' 79,946

xquad/es

  • 構成の説明: XTREME から機械翻訳された translate-train/translate-dev/translate-test 分割を使用した XQuAD 'es' テスト分割 (Hu et al., 2020)。

  • ダウンロードサイズ: 138.41 MiB

  • データセットのサイズ: 104.96 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'test' 1,190
'translate-dev' 10,566
'translate-test' 1,188
'translate-train' 87,488

xquad/ハイ

  • 構成の説明: XTREME から機械翻訳された translate-train/translate-dev/translate-test 分割を使用した XQuAD 'hi' テスト分割 (Hu et al., 2020)。

  • ダウンロードサイズ: 472.23 MiB

  • データセットサイズ: 207.85 MiB

  • 自動キャッシュ( documentation ): はい (test、translate-dev、translate-test)、 shuffle_files=Falseの場合のみ (translate-train)

  • スプリット:

スプリット
'test' 1,190
'translate-dev' 10,536
'translate-test' 1,184
'translate-train' 85,804

xquad/ru

  • 構成の説明: XTREME から機械翻訳された translate-train/translate-dev/translate-test 分割を使用した XQuAD 'ru' テスト分割 (Hu et al., 2020)。

  • ダウンロードサイズ: 513.80 MiB

  • データセットのサイズ: 159.38 MiB

  • 自動キャッシュ( documentation ): はい (test、translate-dev、translate-test)、 shuffle_files=Falseの場合のみ (translate-train)

  • スプリット:

スプリット
'test' 1,190
'translate-dev' 10,469
'translate-test' 1,190
'translate-train' 84,869

xquad/th

  • 構成の説明: XTREME から機械翻訳された translate-train/translate-dev/translate-test 分割を使用した XQuAD の「th」テスト分割 (Hu et al., 2020)。

  • ダウンロードサイズ: 461.54 MiB

  • データセットサイズ: 199.57 MiB

  • 自動キャッシュ( documentation ): はい (test、translate-dev、translate-test)、 shuffle_files=Falseの場合のみ (translate-train)

  • スプリット:

スプリット
'test' 1,190
'translate-dev' 10,516
'translate-test' 1,157
'translate-train' 85,846

xquad/tr

  • 構成の説明: XTREME から機械翻訳された translate-train/translate-dev/translate-test 分割を使用した XQuAD 'tr' テスト分割 (Hu et al., 2020)。

  • ダウンロードサイズ: 151.08 MiB

  • データセットサイズ: 97.56 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'test' 1,190
'translate-dev' 10,535
'translate-test' 1,112
'translate-train' 86,511

xquad/vi

  • 構成の説明: XTREME から機械翻訳された translate-train/translate-dev/translate-test 分割を使用した XQuAD 'vi' テスト分割 (Hu et al., 2020)。

  • ダウンロードサイズ: 218.09 MiB

  • データセットサイズ: 120.03 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'test' 1,190
'translate-dev' 10,555
'translate-test' 1,178
'translate-train' 87,187

xquad/zh

  • 構成の説明: XTREME から機械翻訳された translate-train/translate-dev/translate-test 分割を使用した XQuAD 'zh' テスト分割 (Hu et al., 2020)。

  • ダウンロードサイズ: 174.57 MiB

  • データセットのサイズ: 80.79 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'test' 1,190
'translate-dev' 10,475
'translate-test' 1,186
'translate-train' 85,700

xquad/ja

  • 構成の説明: XQuAD 'en' テスト分割。

  • ダウンロードサイズ: 595.10 KiB

  • データセットサイズ: 1.19 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'test' 1,190