- Descrição :
Este conjunto de dados contém 23.659 pares de avaliação PAWS traduzidos por humanos e 296.406 pares de treinamento traduzidos por máquina em seis idiomas tipologicamente distintos:
- Francês
- Espanhol
- Alemão
- chinês
- japonês
- coreano
Para mais detalhes, consulte o documento anexo: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification em https://arxiv.org/abs/1908.11828
Semelhante ao PAWS Dataset, os exemplos são divididos em seções Train/Dev/Test. Todos os arquivos estão no formato tsv com quatro colunas:
-
id
: Um id exclusivo para cada par. -
sentence1
: A primeira frase. -
sentence2
: A segunda frase. -
(noisy_)label
: rótulo (ruidoso) para cada par.
Cada rótulo tem dois valores possíveis: 0 indica que o par tem um significado diferente, enquanto 1 indica que o par é uma paráfrase.
Documentação Adicional : Explore em Papers With Code
Página inicial : https://github.com/google-research-datasets/paws/tree/master/pawsx
Código -fonte:
tfds.datasets.paws_x_wiki.Builder
Versões :
-
1.0.0
(padrão): sem notas de versão.
-
Tamanho do download :
28.88 MiB
Cache automático ( documentação ): Sim
Estrutura de recursos :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
etiqueta | ClassLabel | int64 | ||
frase1 | Texto | corda | ||
frase2 | Texto | corda |
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não compatível.
Citação :
@InProceedings{pawsx2019emnlp,
title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
booktitle = {Proc. of EMNLP},
year = {2019}
}
paws_x_wiki/de (configuração padrão)
Descrição da configuração : Traduzido para de
Tamanho do conjunto de dados :
15.27 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 2.000 |
'train' | 49.380 |
'validation' | 2.000 |
- Exemplos ( tfds.as_dataframe ):
paws_x_wiki/en
Descrição da configuração : Traduzido para en
Tamanho do conjunto de dados :
14.59 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 2.000 |
'train' | 49.175 |
'validation' | 2.000 |
- Exemplos ( tfds.as_dataframe ):
paws_x_wiki/es
Descrição da configuração : Traduzido para es
Tamanho do conjunto de dados :
15.27 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 2.000 |
'train' | 49.401 |
'validation' | 1.961 |
- Exemplos ( tfds.as_dataframe ):
paws_x_wiki/fr
Descrição da configuração : Traduzido para fr
Tamanho do conjunto de dados :
15.79 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 2.000 |
'train' | 49.399 |
'validation' | 1.988 |
- Exemplos ( tfds.as_dataframe ):
paws_x_wiki/ja
Descrição da configuração : Traduzido para ja
Tamanho do conjunto de dados :
17.77 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 2.000 |
'train' | 49.401 |
'validation' | 2.000 |
- Exemplos ( tfds.as_dataframe ):
paws_x_wiki/ko
Descrição da configuração : Traduzido para ko
Tamanho do conjunto de dados :
16.42 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 1.999 |
'train' | 49.164 |
'validation' | 2.000 |
- Exemplos ( tfds.as_dataframe ):
paws_x_wiki/zh
Descrição da configuração : Traduzido para zh
Tamanho do conjunto de dados :
13.20 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 2.000 |
'train' | 49.401 |
'validation' | 2.000 |
- Exemplos ( tfds.as_dataframe ):