- Descripción :
CALIDAD, un conjunto de datos de comprensión de lectura larga de opción múltiple.
Proporcionamos solo la versión sin formato.
Página de inicio: https://github.com/nyu-mll/quality
Código fuente :
tfds.datasets.quality.Builder
Versiones :
-
1.0.0
(predeterminado): versión inicial.
-
Tamaño de la descarga :
17.26 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'dev' | 230 |
'test' | 232 |
'train' | 300 |
- Estructura de características :
FeaturesDict({
'article': Text(shape=(), dtype=string),
'article_id': Text(shape=(), dtype=string),
'difficults': Sequence(bool),
'gold_labels': Sequence(int32),
'options': Sequence(Sequence(Text(shape=(), dtype=string))),
'question_ids': Sequence(Text(shape=(), dtype=string)),
'questions': Sequence(Text(shape=(), dtype=string)),
'set_unique_id': Text(shape=(), dtype=string),
'source': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'topic': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
'writer_id': Text(shape=(), dtype=string),
'writer_labels': Sequence(int32),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
artículo | Texto | cadena | ||
ID del artículo | Texto | cadena | ||
dificiles | Secuencia (tensor) | (Ninguno,) | bool | |
etiquetas_doradas | Secuencia (tensor) | (Ninguno,) | int32 | |
opciones | Secuencia(Secuencia(Texto)) | (Ninguno Ninguno) | cadena | |
pregunta_ids | Secuencia (Texto) | (Ninguno,) | cadena | |
preguntas | Secuencia (Texto) | (Ninguno,) | cadena | |
conjunto_único_id | Texto | cadena | ||
fuente | Texto | cadena | ||
título | Texto | cadena | ||
tema | Texto | cadena | ||
URL | Texto | cadena | ||
escritor_id | Texto | cadena | ||
escritor_etiquetas | Secuencia (tensor) | (Ninguno,) | int32 |
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Cita :
@article{pang2021quality,
title={ {QuALITY}: Question Answering with Long Input Texts, Yes!},
author={Pang, Richard Yuanzhe and Parrish, Alicia and Joshi, Nitish and Nangia, Nikita and Phang, Jason and Chen, Angelica and Padmakumar, Vishakh and Ma, Johnny and Thompson, Jana and He, He and Bowman, Samuel R.},
journal={arXiv preprint arXiv:2112.08608},
year={2021}
}
calidad/sin procesar (configuración predeterminada)
Descripción de la configuración : Raw con HTML.
Tamaño del conjunto de datos :
22.18 MiB
Ejemplos ( tfds.as_dataframe ):
calidad/despojado
Descripción de la configuración : despojado de HTML.
Tamaño del conjunto de datos :
20.73 MiB
Ejemplos ( tfds.as_dataframe ):