conll2002

  • Descrição :

A tarefa compartilhada de CoNLL-2002 diz respeito ao reconhecimento de entidade nomeada independente de linguagem. Os tipos de entidades nomeadas incluem: pessoas, locais, organizações e nomes de diversas entidades que não pertencem aos três grupos anteriores. Os participantes da tarefa compartilhada receberam dados de treinamento e teste para pelo menos dois idiomas. Fontes de informação diferentes dos dados de treinamento podem ter sido usadas nesta tarefa compartilhada.

@inproceedings{tjong-kim-sang-2002-introduction,
    title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
    author = "Tjong Kim Sang, Erik F.",
    booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
    year = "2002",
    url = "https://aclanthology.org/W02-2024",
}

conll2002/es (configuração padrão)

  • Tamanho do download : 3.95 MiB

  • Tamanho do conjunto de dados : 3.52 MiB

  • Divisões :

Dividir Exemplos
'dev' 1.916
'test' 1.518
'train' 8.324
  • Estrutura de recursos :
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • Documentação do recurso:
Funcionalidade Aula Forma Tipo D Descrição
RecursosDict
ner Sequência(ClassLabel) (Nenhum,) int64
pos Sequência(ClassLabel) (Nenhum,) int64
fichas Sequência (Texto) (Nenhum,) fragmento

conll2002/nl

  • Tamanho do download : 3.47 MiB

  • Tamanho do conjunto de dados : 3.55 MiB

  • Divisões :

Dividir Exemplos
'dev' 2.896
'test' 5.196
'train' 15.807
  • Estrutura de recursos :
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • Documentação do recurso:
Funcionalidade Aula Forma Tipo D Descrição
RecursosDict
ner Sequência(ClassLabel) (Nenhum,) int64
pos Sequência(ClassLabel) (Nenhum,) int64
fichas Sequência (Texto) (Nenhum,) fragmento