- Descripción :
El conjunto de datos de respuesta a preguntas de Stanford (SQuAD) es un conjunto de datos de comprensión de lectura, que consiste en preguntas planteadas por trabajadores colectivos en un conjunto de artículos de Wikipedia, donde la respuesta a cada pregunta es un segmento de texto, o lapso, del pasaje de lectura correspondiente, o la pregunta. podría ser incontestable.
Documentación adicional : Explore en Papers With Code
Página de inicio: https://rajpurkar.github.io/SQuAD-explorer/
Código fuente :
tfds.datasets.squad.Builder
Versiones :
-
3.0.0
(predeterminado): soluciona el problema con una pequeña cantidad de ejemplos (19) donde los intervalos de respuesta están desalineados debido a la eliminación de espacios en blanco del contexto.
-
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Cita :
@article{2016arXiv160605250R,
author = { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
Konstantin and {Liang}, Percy},
title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
journal = {arXiv e-prints},
year = 2016,
eid = {arXiv:1606.05250},
pages = {arXiv:1606.05250},
archivePrefix = {arXiv},
eprint = {1606.05250},
}
escuadrón/v1.1 (configuración predeterminada)
Descripción de la configuración : Versión 1.1.0 de SQUAD
Tamaño de la descarga :
33.51 MiB
Tamaño del conjunto de datos :
94.06 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 87,599 |
'validation' | 10,570 |
- Estructura de características :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
respuestas | Secuencia | |||
respuestas/answer_start | Tensor | int32 | ||
respuestas/texto | Texto | cuerda | ||
contexto | Texto | cuerda | ||
identificación | Tensor | cuerda | ||
pregunta | Texto | cuerda | ||
título | Texto | cuerda |
- Ejemplos ( tfds.as_dataframe ):
equipo/v2.0
Descripción de la configuración : Versión 2.0.0 de SQUAD
Tamaño de la descarga :
44.34 MiB
Tamaño del conjunto de datos :
148.54 MiB
Almacenamiento automático en caché ( documentación ): Sí (validación), solo cuando
shuffle_files=False
(tren)Divisiones :
Separar | Ejemplos |
---|---|
'train' | 130,319 |
'validation' | 11,873 |
- Estructura de características :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'is_impossible': bool,
'plausible_answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
respuestas | Secuencia | |||
respuestas/answer_start | Tensor | int32 | ||
respuestas/texto | Texto | cuerda | ||
contexto | Texto | cuerda | ||
identificación | Tensor | cuerda | ||
es imposible | Tensor | bool | ||
respuestas_plausibles | Secuencia | |||
plausible_answers/answer_start | Tensor | int32 | ||
respuestas_plausibles/texto | Texto | cuerda | ||
pregunta | Texto | cuerda | ||
título | Texto | cuerda |
- Ejemplos ( tfds.as_dataframe ):