patas_wiki

  • Descrição :

Os conjuntos de dados de identificação de paráfrases existentes carecem de pares de sentenças com alta sobreposição lexical sem serem paráfrases. Os modelos treinados com esses dados falham em distinguir pares como voos de Nova York para a Flórida e voos da Flórida para Nova York. Este conjunto de dados contém 108.463 pares rotulados por humanos e 656k pares rotulados ruidosamente que apresentam a importância da estrutura de modelagem, contexto e informações de ordem de palavras para o problema de identificação de paráfrase.

Para mais detalhes, consulte o documento anexo: PAWS: Paraphrase Adversaries from Word Scrambling em https://arxiv.org/abs/1904.01130

Este corpus contém pares gerados a partir de páginas da Wikipédia, contendo pares gerados a partir de métodos de troca de palavras e retrotradução. Todos os pares têm julgamentos humanos sobre paráfrase e fluência e são divididos em seções de treinamento/desenvolvimento/teste.

Todos os arquivos estão no formato tsv com quatro colunas:

  1. id : Um id exclusivo para cada par.
  2. sentence1 : A primeira frase.
  3. sentence2 : A segunda frase.
  4. (noisy_)label : rótulo (ruidoso) para cada par.

Cada rótulo tem dois valores possíveis: 0 indica que o par tem um significado diferente, enquanto 1 indica que o par é uma paráfrase.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
etiqueta ClassLabel int64
frase1 Texto corda
frase2 Texto corda
@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki/labeled_final_tokenized (configuração padrão)

  • Descrição da configuração : Subconjunto: rotulado_final tokenizado: Verdadeiro

  • Tamanho do conjunto de dados : 17.96 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'test' 8.000
'train' 49.401
'validation' 8.000

paws_wiki/labeled_final_raw

  • Descrição da configuração : Subconjunto: rotulado_final tokenizado: Falso

  • Tamanho do conjunto de dados : 17.57 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'test' 8.000
'train' 49.401
'validation' 8.000

paws_wiki/labeled_swap_tokenized

  • Descrição da configuração : Subconjunto: rotulado_swap tokenizado: Verdadeiro

  • Tamanho do conjunto de dados : 8.79 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'train' 30.397

paws_wiki/labeled_swap_raw

  • Descrição da configuração : Subconjunto: rotulado_swap tokenizado: Falso

  • Tamanho do conjunto de dados : 8.60 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'train' 30.397

paws_wiki/unlabeled_final_tokenized

  • Descrição da configuração : Subconjunto: unlabeled_final tokenizado: Verdadeiro

  • Tamanho do conjunto de dados : 177.89 MiB

  • Armazenado automaticamente em cache ( documentação ): Sim (validação), somente quando shuffle_files=False (train)

  • Divisões :

Dividir Exemplos
'train' 645.652
'validation' 10.000