- Descripción :
La tarea compartida de CoNLL-2002 se refiere al reconocimiento de entidades con nombre independiente del idioma. Los tipos de entidades nombradas incluyen: personas, lugares, organizaciones y nombres de entidades misceláneas que no pertenecen a los tres grupos anteriores. A los participantes de la tarea compartida se les ofreció capacitación y datos de prueba para al menos dos idiomas. Es posible que en esta tarea compartida se hayan utilizado fuentes de información distintas de los datos de entrenamiento.
Página de inicio: https://aclanthology.org/W02-2024/
Código fuente :
tfds.text.conll2002.Conll2002
Versiones :
-
1.0.0
(predeterminado): versión inicial.
-
Almacenamiento automático en caché ( documentación ): Sí
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Cita :
@inproceedings{tjong-kim-sang-2002-introduction,
title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
author = "Tjong Kim Sang, Erik F.",
booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
year = "2002",
url = "https://aclanthology.org/W02-2024",
}
conll2002/es (configuración predeterminada)
Tamaño de la descarga :
3.95 MiB
Tamaño del conjunto de datos :
3.52 MiB
Divisiones :
Separar | Ejemplos |
---|---|
'dev' | 1,916 |
'test' | 1,518 |
'train' | 8,324 |
- Estructura de características :
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
ner | Secuencia (Etiqueta de clase) | (Ninguno,) | int64 | |
posición | Secuencia (Etiqueta de clase) | (Ninguno,) | int64 | |
fichas | Secuencia (Texto) | (Ninguno,) | cadena |
- Ejemplos ( tfds.as_dataframe ):
conll2002/nl
Tamaño de la descarga :
3.47 MiB
Tamaño del conjunto de datos :
3.55 MiB
Divisiones :
Separar | Ejemplos |
---|---|
'dev' | 2,896 |
'test' | 5,196 |
'train' | 15,807 |
- Estructura de características :
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
ner | Secuencia (Etiqueta de clase) | (Ninguno,) | int64 | |
posición | Secuencia (Etiqueta de clase) | (Ninguno,) | int64 | |
fichas | Secuencia (Texto) | (Ninguno,) | cadena |
- Ejemplos ( tfds.as_dataframe ):