TFDS はCroissant 🥐 形式をサポートするようになりました。詳細については、ドキュメントをお読みください。

このページは Cloud Translation API によって翻訳されました。

paws_x_wiki

説明:

このデータセットには、人間が翻訳した 23,659 の PAWS 評価ペアと、類型的に異なる 6 つの言語による機械翻訳された 296,406 のトレーニングペアが含まれています。

フランス語
スペイン語
ドイツ人
中国語
日本
韓国語

詳細については、付属の論文を参照してください: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification ( https://arxiv.org/abs/1908.11828)

PAWS データセットと同様に、例はトレーニング/開発/テストのセクションに分かれています。すべてのファイルは、次の 4 つの列を持つ tsv 形式です。

id : 各ペアの一意の ID。
sentence1 1 : 最初の文。
sentence2 2 : 2番目の文。
(noisy_)label : 各ペアの (Noisy) ラベル。

各ラベルには 2 つの可能な値があります。0 はペアが異なる意味を持つことを示し、1 はペアが言い換えであることを示します。

追加のドキュメント:コードを使用したペーパーの探索
ホームページ: https://github.com/google-research-datasets/paws/tree/master/pawsx
ソースコード: tfds.datasets.paws_x_wiki.Builder
バージョン:
- 1.0.0 (デフォルト): リリースノートはありません。
ダウンロードサイズ: 28.88 MiB
自動キャッシュ(ドキュメント): はい
機能構造:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})

機能のドキュメント:

特徴	クラス	Dtype
	特徴辞書
ラベル	クラスラベル	int64
センテンス1	文章	ストリング
センテンス2	文章	ストリング

監視されたキー( as_supervised docを参照): None
図( tfds.show_examples ): サポートされていません。
引用：

@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki/de (デフォルト設定)

構成の説明: de に翻訳
データセットサイズ: 15.27 MiB
スプリット:

スプリット	例
`'test'`	2,000
`'train'`	49,380
`'validation'`	2,000

例( tfds.as_dataframe ):

paws_x_wiki/en

構成の説明: en に翻訳
データセットのサイズ: 14.59 MiB
スプリット:

スプリット	例
`'test'`	2,000
`'train'`	49,175
`'validation'`	2,000

例( tfds.as_dataframe ):

paws_x_wiki/es

構成の説明: es に翻訳
データセットサイズ: 15.27 MiB
スプリット:

スプリット	例
`'test'`	2,000
`'train'`	49,401
`'validation'`	1,961人

例( tfds.as_dataframe ):

paws_x_wiki/fr

構成の説明: fr に翻訳
データセットのサイズ: 15.79 MiB
スプリット:

スプリット	例
`'test'`	2,000
`'train'`	49,399
`'validation'`	1,988人

例( tfds.as_dataframe ):

paws_x_wiki/ja

構成の説明: 日本語に翻訳
データセットのサイズ: 17.77 MiB
スプリット:

スプリット	例
`'test'`	2,000
`'train'`	49,401
`'validation'`	2,000

例( tfds.as_dataframe ):

paws_x_wiki/ko

構成の説明: ko に翻訳
データセットサイズ: 16.42 MiB
スプリット:

スプリット	例
`'test'`	1,999
`'train'`	49,164
`'validation'`	2,000

例( tfds.as_dataframe ):

paws_x_wiki/zh

構成の説明: zh に翻訳
データセットのサイズ: 13.20 MiB
スプリット:

スプリット	例
`'test'`	2,000
`'train'`	49,401
`'validation'`	2,000

例( tfds.as_dataframe ):

paws_x_wiki コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。