- 説明:
このデータセットには、23,659人の人間が翻訳したPAWS評価ペアと296,406個の機械翻訳されたトレーニングペアが6つの類型的に異なる言語で含まれています。
- フランス語
- スペイン語
- ドイツ人
- 中国語
- 日本
- 韓国語
詳細については、添付の論文を参照してください:PAWS-X: https: //arxiv.org/abs/1908.11828の言い換え識別のための言語横断的な敵対的データセット
PAWSデータセットと同様に、例はTrain / Dev/Testセクションに分割されています。すべてのファイルは、4列のtsv形式です。
id各ペアの一意のIDセンテンス1最初のセンテンスセンテンス22番目のセンテンス(noisy_)label(Noisy)各ペアのラベル
各ラベルには2つの可能な値があります。0はペアの意味が異なることを示し、1はペアが言い換えであることを示します。
ホームページ: https ://github.com/google-research-datasets/paws/tree/master/pawsx
ソースコード:
tfds.text.paws_x_wiki.PawsXWiki
バージョン:
-
1.0.0
(デフォルト):リリースノートなし。
-
ダウンロードサイズ:
28.88 MiB
自動キャッシュ(ドキュメント):はい
素性構造:
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'sentence1': Text(shape=(), dtype=tf.string),
'sentence2': Text(shape=(), dtype=tf.string),
})
- 機能ドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
FeaturesDict | ||||
ラベル | ClassLabel | tf.int64 | ||
センテンス1 | 文章 | tf.string | ||
センテンス2 | 文章 | tf.string |
監視対象キー(
as_supervised
docを参照):None
図( tfds.show_examples ):サポートされていません。
例( tfds.as_dataframe ):欠落しています。
引用:
@InProceedings{pawsx2019emnlp,
title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
booktitle = {Proc. of EMNLP},
year = {2019}
}
paws_x_wiki / de(デフォルトの構成)
構成の説明:deに変換
データセットサイズ:
15.27 MiB
分割:
スプリット | 例 |
---|---|
'test' | 2,000 |
'train' | 49,380 |
'validation' | 2,000 |
paws_x_wiki / en
構成の説明:enに翻訳
データセットサイズ:
14.59 MiB
分割:
スプリット | 例 |
---|---|
'test' | 2,000 |
'train' | 49,175 |
'validation' | 2,000 |
paws_x_wiki / es
構成の説明:esに変換
データセットサイズ:
15.27 MiB
分割:
スプリット | 例 |
---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 1,961 |
paws_x_wiki / fr
構成の説明:frに変換
データセットサイズ:
15.79 MiB
分割:
スプリット | 例 |
---|---|
'test' | 2,000 |
'train' | 49,399 |
'validation' | 1,988 |
paws_x_wiki / ja
設定の説明:jaに翻訳
データセットサイズ:
17.77 MiB
分割:
スプリット | 例 |
---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 2,000 |
paws_x_wiki / ko
構成の説明:koに翻訳
データセットサイズ:
16.42 MiB
分割:
スプリット | 例 |
---|---|
'test' | 1,999 |
'train' | 49,164 |
'validation' | 2,000 |
paws_x_wiki / zh
構成の説明:zhに翻訳
データセットサイズ:
13.20 MiB
分割:
スプリット | 例 |
---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 2,000 |