paws_x_wiki

  • 説明

このデータセットには、23,659人の人間が翻訳したPAWS評価ペアと296,406個の機械翻訳されたトレーニングペアが6つの類型的に異なる言語で含まれています。

  • フランス語
  • スペイン語
  • ドイツ人
  • 中国語
  • 日本
  • 韓国語

詳細については、添付の論文を参照してください:PAWS-X: https: //arxiv.org/abs/1908.11828の言い換え識別のための言語横断的な敵対的データセット

PAWSデータセットと同様に、例はTrain / Dev/Testセクションに分割されています。すべてのファイルは、4列のtsv形式です。

id各ペアの一意のIDセンテンス1最初のセンテンスセンテンス22番目のセンテンス(noisy_)label(Noisy)各ペアのラベル

各ラベルには2つの可能な値があります。0はペアの意味が異なることを示し、1はペアが言い換えであることを示します。

  • ホームページhttps ://github.com/google-research-datasets/paws/tree/master/pawsx

  • ソースコードtfds.text.paws_x_wiki.PawsXWiki

  • バージョン

    • 1.0.0 (デフォルト):リリースノートなし。
  • ダウンロードサイズ28.88 MiB

  • 自動キャッシュドキュメント):はい

  • 素性構造

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • 機能ドキュメント
特徴クラスDtype説明
FeaturesDict
ラベルClassLabel tf.int64
センテンス1文章tf.string
センテンス2文章tf.string
@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki / de(デフォルトの構成)

  • 構成の説明:deに変換

  • データセットサイズ15.27 MiB

  • 分割

スプリット
'test' 2,000
'train' 49,380
'validation' 2,000

paws_x_wiki / en

  • 構成の説明:enに翻訳

  • データセットサイズ14.59 MiB

  • 分割

スプリット
'test' 2,000
'train' 49,175
'validation' 2,000

paws_x_wiki / es

  • 構成の説明:esに変換

  • データセットサイズ15.27 MiB

  • 分割

スプリット
'test' 2,000
'train' 49,401
'validation' 1,961

paws_x_wiki / fr

  • 構成の説明:frに変換

  • データセットサイズ15.79 MiB

  • 分割

スプリット
'test' 2,000
'train' 49,399
'validation' 1,988

paws_x_wiki / ja

  • 設定の説明:jaに翻訳

  • データセットサイズ17.77 MiB

  • 分割

スプリット
'test' 2,000
'train' 49,401
'validation' 2,000

paws_x_wiki / ko

  • 構成の説明:koに翻訳

  • データセットサイズ16.42 MiB

  • 分割

スプリット
'test' 1,999
'train' 49,164
'validation' 2,000

paws_x_wiki / zh

  • 構成の説明:zhに翻訳

  • データセットサイズ13.20 MiB

  • 分割

スプリット
'test' 2,000
'train' 49,401
'validation' 2,000