conll2002

  • 설명 :

CoNLL-2002의 공유 작업은 언어 독립적인 명명된 엔터티 인식에 관한 것입니다. 명명된 엔터티 유형에는 사람, 위치, 조직 및 앞의 세 그룹에 속하지 않는 기타 엔터티의 이름이 포함됩니다. 공유 작업의 참가자에게는 최소 두 가지 언어에 대한 교육 및 테스트 데이터가 제공되었습니다. 학습 데이터 이외의 정보 소스가 이 공유 작업에 사용되었을 수 있습니다.

@inproceedings{tjong-kim-sang-2002-introduction,
    title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
    author = "Tjong Kim Sang, Erik F.",
    booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
    year = "2002",
    url = "https://aclanthology.org/W02-2024",
}

conll2002/es(기본 구성)

  • 다운로드 크기 : 3.95 MiB

  • 데이터 세트 크기 : 3.52 MiB

  • 분할 :

나뉘다
'dev' 1,916
'test' 1,518
'train' 8,324
  • 기능 구조 :
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
시퀀스(클래스 레이블) (없음,) int64
위치 시퀀스(클래스 레이블) (없음,) int64
토큰 시퀀스(텍스트) (없음,)

conll2002/nl

  • 다운로드 크기 : 3.47 MiB

  • 데이터 세트 크기 : 3.55 MiB

  • 분할 :

나뉘다
'dev' 2,896
'test' 5,196
'train' 15,807
  • 기능 구조 :
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
시퀀스(클래스 레이블) (없음,) int64
위치 시퀀스(클래스 레이블) (없음,) int64
토큰 시퀀스(텍스트) (없음,)