- Descripción :
Los conjuntos de datos de identificación de paráfrasis existentes carecen de pares de oraciones que tengan una gran superposición léxica sin ser paráfrasis. Los modelos entrenados con tales datos no logran distinguir pares como vuelos de Nueva York a Florida y vuelos de Florida a Nueva York. Este conjunto de datos contiene 108 463 pares etiquetados por humanos y 656 000 pares etiquetados con ruido que destacan la importancia de modelar la estructura, el contexto y la información del orden de las palabras para el problema de la identificación de paráfrasis.
Para obtener más detalles, consulte el documento adjunto: PAWS: Paraphrase Adversaries from Word Scrambling en https://arxiv.org/abs/1904.01130
Este corpus contiene pares generados a partir de páginas de Wikipedia, que contienen pares generados a partir de métodos de intercambio de palabras y traducción inversa. Todos los pares tienen juicios humanos tanto en paráfrasis como en fluidez y están divididos en secciones de Entrenamiento/Desarrollo/Prueba.
Todos los archivos están en formato tsv con cuatro columnas:
-
id
: una identificación única para cada par. -
sentence1
: La primera oración. -
sentence2
: La segunda oración. -
(noisy_)label
: Etiqueta (ruidosa) para cada par.
Cada etiqueta tiene dos valores posibles: 0 indica que el par tiene un significado diferente, mientras que 1 indica que el par es una paráfrasis.
Documentación adicional : Explore en Papers With Code
Página de inicio: https://github.com/google-research-datasets/paws
Código fuente :
tfds.datasets.paws_wiki.Builder
Versiones :
-
1.0.0
: Versión inicial. -
1.1.0
(predeterminado): agrega configuraciones a diferentes subconjuntos y admite texto sin formato.
-
Tamaño de la descarga :
57.47 MiB
Estructura de características :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
etiqueta | Etiqueta de clase | int64 | ||
oracion1 | Texto | cuerda | ||
oracion2 | Texto | cuerda |
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Cita :
@InProceedings{paws2019naacl,
title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
booktitle = {Proc. of NAACL},
year = {2019}
}
paws_wiki/labeled_final_tokenized (configuración predeterminada)
Descripción de la configuración : subconjunto: etiquetado_final tokenizado: verdadero
Tamaño del conjunto de datos :
17.96 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 8,000 |
'train' | 49,401 |
'validation' | 8,000 |
- Ejemplos ( tfds.as_dataframe ):
patas_wiki/etiquetado_final_raw
Descripción de la configuración : subconjunto: etiquetado_final tokenizado: falso
Tamaño del conjunto de datos :
17.57 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 8,000 |
'train' | 49,401 |
'validation' | 8,000 |
- Ejemplos ( tfds.as_dataframe ):
paws_wiki/labeled_swap_tokenized
Descripción de la configuración : subconjunto: etiquetado_intercambio tokenizado: verdadero
Tamaño del conjunto de datos :
8.79 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 30,397 |
- Ejemplos ( tfds.as_dataframe ):
paws_wiki/labeled_swap_raw
Descripción de la configuración : subconjunto: etiquetado_intercambio tokenizado: falso
Tamaño del conjunto de datos :
8.60 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 30,397 |
- Ejemplos ( tfds.as_dataframe ):
paws_wiki/unlabeled_final_tokenized
Descripción de la configuración : subconjunto: unlabeled_final tokenizado: verdadero
Tamaño del conjunto de datos :
177.89 MiB
Almacenamiento automático en caché ( documentación ): Sí (validación), solo cuando
shuffle_files=False
(tren)Divisiones :
Separar | Ejemplos |
---|---|
'train' | 645,652 |
'validation' | 10,000 |
- Ejemplos ( tfds.as_dataframe ):