conll2002

  • Descripción :

La tarea compartida de CoNLL-2002 se refiere al reconocimiento de entidades con nombre independiente del idioma. Los tipos de entidades nombradas incluyen: personas, lugares, organizaciones y nombres de entidades misceláneas que no pertenecen a los tres grupos anteriores. A los participantes de la tarea compartida se les ofreció capacitación y datos de prueba para al menos dos idiomas. Es posible que en esta tarea compartida se hayan utilizado fuentes de información distintas de los datos de entrenamiento.

@inproceedings{tjong-kim-sang-2002-introduction,
    title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
    author = "Tjong Kim Sang, Erik F.",
    booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
    year = "2002",
    url = "https://aclanthology.org/W02-2024",
}

conll2002/es (configuración predeterminada)

  • Tamaño de la descarga : 3.95 MiB

  • Tamaño del conjunto de datos : 3.52 MiB

  • Divisiones :

Separar Ejemplos
'dev' 1,916
'test' 1,518
'train' 8,324
  • Estructura de características :
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
ner Secuencia (Etiqueta de clase) (Ninguno,) int64
posición Secuencia (Etiqueta de clase) (Ninguno,) int64
fichas Secuencia (Texto) (Ninguno,) cadena

conll2002/nl

  • Tamaño de la descarga : 3.47 MiB

  • Tamaño del conjunto de datos : 3.55 MiB

  • Divisiones :

Separar Ejemplos
'dev' 2,896
'test' 5,196
'train' 15,807
  • Estructura de características :
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
ner Secuencia (Etiqueta de clase) (Ninguno,) int64
posición Secuencia (Etiqueta de clase) (Ninguno,) int64
fichas Secuencia (Texto) (Ninguno,) cadena