wiki_auto

  • Descripción :

WikiAuto proporciona un conjunto de oraciones alineadas de Wikipedia en inglés y Wikipedia en inglés simple como recurso para entrenar sistemas de simplificación de oraciones. Los autores primero recopilaron un conjunto de alineaciones manuales entre oraciones en un subconjunto de la Wikipedia en inglés simple y sus versiones correspondientes en la Wikipedia en inglés (esto corresponde a la configuración manual ), luego entrenaron un sistema CRF neuronal para predecir estas alineaciones. Luego, el modelo entrenado se aplicó a los otros artículos en Wikipedia en inglés simple con una contraparte en inglés para crear un corpus más grande de oraciones alineadas (correspondientes a las configuraciones auto , auto_acl , auto_full_no_split y auto_full_with_split aquí).

@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto/manual (configuración predeterminada)

  • Descripción de la configuración : un conjunto de pares de oraciones de Wikipedia de 10K alineados por trabajadores de multitud.

  • Tamaño de la descarga : 53.47 MiB

  • Tamaño del conjunto de datos : 76.87 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 73,249
'test' 118,074
  • Estructura de características :
FeaturesDict({
    'GLEU-score': float64,
    'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'normal_sentence': Text(shape=(), dtype=string),
    'normal_sentence_id': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
    'simple_sentence_id': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
Puntuación GLEU Tensor flotar64
etiqueta_alineación Etiqueta de clase int64
oración_normal Texto cuerda
normal_sentence_id Texto cuerda
oración simple Texto cuerda
simple_sentence_id Texto cuerda

wiki_auto/auto_acl

  • Descripción de la configuración : pares de oraciones alineados para entrenar el sistema ACL2020.

  • Tamaño de la descarga : 112.60 MiB

  • Tamaño del conjunto de datos : 138.83 MiB

  • Almacenamiento automático en caché ( documentación ): solo cuando shuffle_files=False (completo)

  • Divisiones :

Separar Ejemplos
'full' 488,332
  • Estructura de características :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
oración_normal Texto cuerda
oración simple Texto cuerda

wiki_auto/auto_full_no_split

  • Descripción de la configuración : todos los pares de oraciones alineados automáticamente sin división de oraciones.

  • Tamaño de la descarga : 135.02 MiB

  • Tamaño del conjunto de datos : 166.78 MiB

  • Almacenamiento automático en caché ( documentación ): solo cuando shuffle_files=False (completo)

  • Divisiones :

Separar Ejemplos
'full' 591,994
  • Estructura de características :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
oración_normal Texto cuerda
oración simple Texto cuerda

wiki_auto/auto_full_with_split

  • Descripción de la configuración : todos los pares de oraciones alineados automáticamente con división de oraciones.

  • Tamaño de la descarga : 115.09 MiB

  • Tamaño del conjunto de datos : 141.20 MiB

  • Almacenamiento automático en caché ( documentación ): solo cuando shuffle_files=False (completo)

  • Divisiones :

Separar Ejemplos
'full' 483,801
  • Estructura de características :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
oración_normal Texto cuerda
oración simple Texto cuerda

wiki_auto/auto

  • Descripción de la configuración : un gran conjunto de pares de oraciones alineadas automáticamente.

  • Tamaño de descarga : 2.01 GiB

  • Tamaño del conjunto de datos : 1.76 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'part_1' 125,059
'part_2' 13,036
  • Estructura de características :
FeaturesDict({
    'example_id': Text(shape=(), dtype=string),
    'normal': FeaturesDict({
        'normal_article_content': Sequence({
            'normal_sentence': Text(shape=(), dtype=string),
            'normal_sentence_id': Text(shape=(), dtype=string),
        }),
        'normal_article_id': int32,
        'normal_article_title': Text(shape=(), dtype=string),
        'normal_article_url': Text(shape=(), dtype=string),
    }),
    'paragraph_alignment': Sequence({
        'normal_paragraph_id': Text(shape=(), dtype=string),
        'simple_paragraph_id': Text(shape=(), dtype=string),
    }),
    'sentence_alignment': Sequence({
        'normal_sentence_id': Text(shape=(), dtype=string),
        'simple_sentence_id': Text(shape=(), dtype=string),
    }),
    'simple': FeaturesDict({
        'simple_article_content': Sequence({
            'simple_sentence': Text(shape=(), dtype=string),
            'simple_sentence_id': Text(shape=(), dtype=string),
        }),
        'simple_article_id': int32,
        'simple_article_title': Text(shape=(), dtype=string),
        'simple_article_url': Text(shape=(), dtype=string),
    }),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
ejemplo_id Texto cuerda
normal CaracterísticasDict
normal/normal_artículo_contenido Secuencia
normal/normal_article_content/normal_sentence Texto cuerda
normal/normal_article_content/normal_sentence_id Texto cuerda
normal/normal_article_id Tensor int32
normal/título_artículo_normal Texto cuerda
normal/normal_articulo_url Texto cuerda
alineación_de_párrafo Secuencia
alineación_párrafo/id_párrafo_normal Texto cuerda
alineación_párrafo/id_párrafo_simple Texto cuerda
alineación_de_frases Secuencia
oración_alineación/normal_frase_id Texto cuerda
oración_alineación/simple_sentence_id Texto cuerda
simple CaracterísticasDict
simple/simple_articulo_contenido Secuencia
simple/simple_article_content/simple_sentence Texto cuerda
simple/simple_article_content/simple_sentence_id Texto cuerda
simple/simple_article_id Tensor int32
simple/simple_article_title Texto cuerda
simple/simple_articulo_url Texto cuerda