- Descrição :
Este conjunto de dados contém 23.659 pares de avaliação PAWS traduzidos por humanos e 296.406 pares de treinamento traduzidos por máquina em seis idiomas tipologicamente distintos:
- Francês
- Espanhol
- Alemão
- chinês
- japonês
- coreano
Para mais detalhes, consulte o documento que acompanha: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification em https://arxiv.org/abs/1908.11828
Semelhante ao PAWS Dataset, os exemplos são divididos em seções Train/Dev/Test. Todos os arquivos estão no formato tsv com quatro colunas:
id Um id único para cada par sentença1 A primeira sentença sentença2 A segunda sentença (ruidoso_)rótulo (Barulhento) para cada par
Cada rótulo tem dois valores possíveis: 0 indica que o par tem significado diferente, enquanto 1 indica que o par é uma paráfrase.
Página inicial : https://github.com/google-research-datasets/paws/tree/master/pawsx
Código fonte :
tfds.text.paws_x_wiki.PawsXWiki
Versões :
-
1.0.0
(padrão): Sem notas de versão.
-
Tamanho do download :
28.88 MiB
Cache automático ( documentação ): Sim
Estrutura de recursos :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'sentence1': Text(shape=(), dtype=tf.string),
'sentence2': Text(shape=(), dtype=tf.string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
CaracterísticasDict | ||||
etiqueta | ClassLabel | tf.int64 | ||
sentença1 | Texto | tf.string | ||
frase2 | Texto | tf.string |
Chaves supervisionadas (consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ): ausente.
Citação :
@InProceedings{pawsx2019emnlp,
title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
booktitle = {Proc. of EMNLP},
year = {2019}
}
paws_x_wiki/de (configuração padrão)
Descrição da configuração : Traduzido para de
Tamanho do conjunto de dados :
15.27 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 2.000 |
'train' | 49.380 |
'validation' | 2.000 |
paws_x_wiki/pt
Descrição da configuração : Traduzido para en
Tamanho do conjunto de dados :
14.59 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 2.000 |
'train' | 49.175 |
'validation' | 2.000 |
paws_x_wiki/es
Descrição da configuração : Traduzido para es
Tamanho do conjunto de dados :
15.27 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 2.000 |
'train' | 49.401 |
'validation' | 1.961 |
paws_x_wiki/fr
Descrição da configuração : Traduzido para fr
Tamanho do conjunto de dados :
15.79 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 2.000 |
'train' | 49.399 |
'validation' | 1.988 |
paws_x_wiki/ja
Descrição da configuração : Traduzido para ja
Tamanho do conjunto de dados :
17.77 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 2.000 |
'train' | 49.401 |
'validation' | 2.000 |
paws_x_wiki/ko
Descrição da configuração : Traduzido para ko
Tamanho do conjunto de dados :
16.42 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 1.999 |
'train' | 49.164 |
'validation' | 2.000 |
paws_x_wiki/zh
Descrição da configuração : Traduzido para zh
Tamanho do conjunto de dados :
13.20 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 2.000 |
'train' | 49.401 |
'validation' | 2.000 |