- Descripción :
WikiAuto proporciona un conjunto de oraciones alineadas de Wikipedia en inglés y Wikipedia en inglés simple como recurso para entrenar sistemas de simplificación de oraciones. Los autores primero recopilaron un conjunto de alineaciones manuales entre oraciones en un subconjunto de la Wikipedia en inglés simple y sus versiones correspondientes en la Wikipedia en inglés (esto corresponde a la configuración manual
), luego entrenaron un sistema CRF neuronal para predecir estas alineaciones. Luego, el modelo entrenado se aplicó a los otros artículos en Wikipedia en inglés simple con una contraparte en inglés para crear un corpus más grande de oraciones alineadas (correspondientes a las configuraciones auto
, auto_acl
, auto_full_no_split
y auto_full_with_split
aquí).
Página de inicio: https://github.com/chaojiang06/wiki-auto
Código fuente :
tfds.text_simplification.wiki_auto.WikiAuto
Versiones :
-
1.0.0
(predeterminado): Versión inicial.
-
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Cita :
@inproceedings{acl/JiangMLZX20,
author = {Chao Jiang and
Mounica Maddela and
Wuwei Lan and
Yang Zhong and
Wei Xu},
editor = {Dan Jurafsky and
Joyce Chai and
Natalie Schluter and
Joel R. Tetreault},
title = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
Linguistics, {ACL} 2020, Online, July 5-10, 2020},
pages = {7943--7960},
publisher = {Association for Computational Linguistics},
year = {2020},
url = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}
wiki_auto/manual (configuración predeterminada)
Descripción de la configuración : un conjunto de pares de oraciones de Wikipedia de 10K alineados por trabajadores de multitud.
Tamaño de la descarga :
53.47 MiB
Tamaño del conjunto de datos :
76.87 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'dev' | 73,249 |
'test' | 118,074 |
- Estructura de características :
FeaturesDict({
'GLEU-score': float64,
'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
Puntuación GLEU | Tensor | flotar64 | ||
etiqueta_alineación | Etiqueta de clase | int64 | ||
oración_normal | Texto | cuerda | ||
normal_sentence_id | Texto | cuerda | ||
oración simple | Texto | cuerda | ||
simple_sentence_id | Texto | cuerda |
- Ejemplos ( tfds.as_dataframe ):
wiki_auto/auto_acl
Descripción de la configuración : pares de oraciones alineados para entrenar el sistema ACL2020.
Tamaño de la descarga :
112.60 MiB
Tamaño del conjunto de datos :
138.83 MiB
Almacenamiento automático en caché ( documentación ): solo cuando
shuffle_files=False
(completo)Divisiones :
Separar | Ejemplos |
---|---|
'full' | 488,332 |
- Estructura de características :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
oración_normal | Texto | cuerda | ||
oración simple | Texto | cuerda |
- Ejemplos ( tfds.as_dataframe ):
wiki_auto/auto_full_no_split
Descripción de la configuración : todos los pares de oraciones alineados automáticamente sin división de oraciones.
Tamaño de la descarga :
135.02 MiB
Tamaño del conjunto de datos :
166.78 MiB
Almacenamiento automático en caché ( documentación ): solo cuando
shuffle_files=False
(completo)Divisiones :
Separar | Ejemplos |
---|---|
'full' | 591,994 |
- Estructura de características :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
oración_normal | Texto | cuerda | ||
oración simple | Texto | cuerda |
- Ejemplos ( tfds.as_dataframe ):
wiki_auto/auto_full_with_split
Descripción de la configuración : todos los pares de oraciones alineados automáticamente con división de oraciones.
Tamaño de la descarga :
115.09 MiB
Tamaño del conjunto de datos :
141.20 MiB
Almacenamiento automático en caché ( documentación ): solo cuando
shuffle_files=False
(completo)Divisiones :
Separar | Ejemplos |
---|---|
'full' | 483,801 |
- Estructura de características :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
oración_normal | Texto | cuerda | ||
oración simple | Texto | cuerda |
- Ejemplos ( tfds.as_dataframe ):
wiki_auto/auto
Descripción de la configuración : un gran conjunto de pares de oraciones alineadas automáticamente.
Tamaño de descarga :
2.01 GiB
Tamaño del conjunto de datos :
1.76 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :
Separar | Ejemplos |
---|---|
'part_1' | 125,059 |
'part_2' | 13,036 |
- Estructura de características :
FeaturesDict({
'example_id': Text(shape=(), dtype=string),
'normal': FeaturesDict({
'normal_article_content': Sequence({
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
}),
'normal_article_id': int32,
'normal_article_title': Text(shape=(), dtype=string),
'normal_article_url': Text(shape=(), dtype=string),
}),
'paragraph_alignment': Sequence({
'normal_paragraph_id': Text(shape=(), dtype=string),
'simple_paragraph_id': Text(shape=(), dtype=string),
}),
'sentence_alignment': Sequence({
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple': FeaturesDict({
'simple_article_content': Sequence({
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple_article_id': int32,
'simple_article_title': Text(shape=(), dtype=string),
'simple_article_url': Text(shape=(), dtype=string),
}),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
ejemplo_id | Texto | cuerda | ||
normal | CaracterísticasDict | |||
normal/normal_artículo_contenido | Secuencia | |||
normal/normal_article_content/normal_sentence | Texto | cuerda | ||
normal/normal_article_content/normal_sentence_id | Texto | cuerda | ||
normal/normal_article_id | Tensor | int32 | ||
normal/título_artículo_normal | Texto | cuerda | ||
normal/normal_articulo_url | Texto | cuerda | ||
alineación_de_párrafo | Secuencia | |||
alineación_párrafo/id_párrafo_normal | Texto | cuerda | ||
alineación_párrafo/id_párrafo_simple | Texto | cuerda | ||
alineación_de_frases | Secuencia | |||
oración_alineación/normal_frase_id | Texto | cuerda | ||
oración_alineación/simple_sentence_id | Texto | cuerda | ||
simple | CaracterísticasDict | |||
simple/simple_articulo_contenido | Secuencia | |||
simple/simple_article_content/simple_sentence | Texto | cuerda | ||
simple/simple_article_content/simple_sentence_id | Texto | cuerda | ||
simple/simple_article_id | Tensor | int32 | ||
simple/simple_article_title | Texto | cuerda | ||
simple/simple_articulo_url | Texto | cuerda |
- Ejemplos ( tfds.as_dataframe ):