- Descrição :
A tarefa compartilhada de CoNLL-2002 diz respeito ao reconhecimento de entidade nomeada independente de linguagem. Os tipos de entidades nomeadas incluem: pessoas, locais, organizações e nomes de diversas entidades que não pertencem aos três grupos anteriores. Os participantes da tarefa compartilhada receberam dados de treinamento e teste para pelo menos dois idiomas. Fontes de informação diferentes dos dados de treinamento podem ter sido usadas nesta tarefa compartilhada.
Página inicial : https://aclanthology.org/W02-2024/
Código -fonte:
tfds.text.conll2002.Conll2002
Versões :
-
1.0.0
(padrão): versão inicial.
-
Cache automático ( documentação ): Sim
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não compatível.
Citação :
@inproceedings{tjong-kim-sang-2002-introduction,
title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
author = "Tjong Kim Sang, Erik F.",
booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
year = "2002",
url = "https://aclanthology.org/W02-2024",
}
conll2002/es (configuração padrão)
Tamanho do download :
3.95 MiB
Tamanho do conjunto de dados :
3.52 MiB
Divisões :
Dividir | Exemplos |
---|---|
'dev' | 1.916 |
'test' | 1.518 |
'train' | 8.324 |
- Estrutura de recursos :
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- Documentação do recurso:
Funcionalidade | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
ner | Sequência(ClassLabel) | (Nenhum,) | int64 | |
pos | Sequência(ClassLabel) | (Nenhum,) | int64 | |
fichas | Sequência (Texto) | (Nenhum,) | fragmento |
- Exemplos ( tfds.as_dataframe ):
conll2002/nl
Tamanho do download :
3.47 MiB
Tamanho do conjunto de dados :
3.55 MiB
Divisões :
Dividir | Exemplos |
---|---|
'dev' | 2.896 |
'test' | 5.196 |
'train' | 15.807 |
- Estrutura de recursos :
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- Documentação do recurso:
Funcionalidade | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
ner | Sequência(ClassLabel) | (Nenhum,) | int64 | |
pos | Sequência(ClassLabel) | (Nenhum,) | int64 | |
fichas | Sequência (Texto) | (Nenhum,) | fragmento |
- Exemplos ( tfds.as_dataframe ):