- Descrição :
Os conjuntos de dados de identificação de paráfrases existentes carecem de pares de sentenças com alta sobreposição lexical sem serem paráfrases. Os modelos treinados com esses dados falham em distinguir pares como voos de Nova York para a Flórida e voos da Flórida para Nova York. Este conjunto de dados contém 108.463 pares rotulados por humanos e 656k pares rotulados ruidosamente que apresentam a importância da estrutura de modelagem, contexto e informações de ordem de palavras para o problema de identificação de paráfrase.
Para mais detalhes, consulte o documento anexo: PAWS: Paraphrase Adversaries from Word Scrambling em https://arxiv.org/abs/1904.01130
Este corpus contém pares gerados a partir de páginas da Wikipédia, contendo pares gerados a partir de métodos de troca de palavras e retrotradução. Todos os pares têm julgamentos humanos sobre paráfrase e fluência e são divididos em seções de treinamento/desenvolvimento/teste.
Todos os arquivos estão no formato tsv com quatro colunas:
-
id
: Um id exclusivo para cada par. -
sentence1
: A primeira frase. -
sentence2
: A segunda frase. -
(noisy_)label
: rótulo (ruidoso) para cada par.
Cada rótulo tem dois valores possíveis: 0 indica que o par tem um significado diferente, enquanto 1 indica que o par é uma paráfrase.
Documentação Adicional : Explore em Papers With Code
Página inicial : https://github.com/google-research-datasets/paws
Código -fonte:
tfds.datasets.paws_wiki.Builder
Versões :
-
1.0.0
: Versão inicial. -
1.1.0
(padrão): adiciona configurações a diferentes subconjuntos e oferece suporte a texto bruto.
-
Tamanho do download :
57.47 MiB
Estrutura de recursos :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
etiqueta | ClassLabel | int64 | ||
frase1 | Texto | corda | ||
frase2 | Texto | corda |
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não suportado.
Citação :
@InProceedings{paws2019naacl,
title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
booktitle = {Proc. of NAACL},
year = {2019}
}
paws_wiki/labeled_final_tokenized (configuração padrão)
Descrição da configuração : Subconjunto: rotulado_final tokenizado: Verdadeiro
Tamanho do conjunto de dados :
17.96 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 8.000 |
'train' | 49.401 |
'validation' | 8.000 |
- Exemplos ( tfds.as_dataframe ):
paws_wiki/labeled_final_raw
Descrição da configuração : Subconjunto: rotulado_final tokenizado: Falso
Tamanho do conjunto de dados :
17.57 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 8.000 |
'train' | 49.401 |
'validation' | 8.000 |
- Exemplos ( tfds.as_dataframe ):
paws_wiki/labeled_swap_tokenized
Descrição da configuração : Subconjunto: rotulado_swap tokenizado: Verdadeiro
Tamanho do conjunto de dados :
8.79 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 30.397 |
- Exemplos ( tfds.as_dataframe ):
paws_wiki/labeled_swap_raw
Descrição da configuração : Subconjunto: rotulado_swap tokenizado: Falso
Tamanho do conjunto de dados :
8.60 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 30.397 |
- Exemplos ( tfds.as_dataframe ):
paws_wiki/unlabeled_final_tokenized
Descrição da configuração : Subconjunto: unlabeled_final tokenizado: Verdadeiro
Tamanho do conjunto de dados :
177.89 MiB
Armazenado automaticamente em cache ( documentação ): Sim (validação), somente quando
shuffle_files=False
(train)Divisões :
Dividir | Exemplos |
---|---|
'train' | 645.652 |
'validation' | 10.000 |
- Exemplos ( tfds.as_dataframe ):