- 설명 :
CoNLL-2002의 공유 작업은 언어 독립적인 명명된 엔터티 인식에 관한 것입니다. 명명된 엔터티 유형에는 사람, 위치, 조직 및 앞의 세 그룹에 속하지 않는 기타 엔터티의 이름이 포함됩니다. 공유 작업의 참가자에게는 최소 두 가지 언어에 대한 교육 및 테스트 데이터가 제공되었습니다. 학습 데이터 이외의 정보 소스가 이 공유 작업에 사용되었을 수 있습니다.
소스 코드 :
tfds.text.conll2002.Conll2002
버전 :
-
1.0.0
(기본값): 최초 릴리스.
-
자동 캐시 ( 문서 ): 예
감독된 키 (
as_supervised
문서 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :
@inproceedings{tjong-kim-sang-2002-introduction,
title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
author = "Tjong Kim Sang, Erik F.",
booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
year = "2002",
url = "https://aclanthology.org/W02-2024",
}
conll2002/es(기본 구성)
다운로드 크기 :
3.95 MiB
데이터 세트 크기 :
3.52 MiB
분할 :
나뉘다 | 예 |
---|---|
'dev' | 1,916 |
'test' | 1,518 |
'train' | 8,324 |
- 기능 구조 :
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
너 | 시퀀스(클래스 레이블) | (없음,) | int64 | |
위치 | 시퀀스(클래스 레이블) | (없음,) | int64 | |
토큰 | 시퀀스(텍스트) | (없음,) | 끈 |
- 예 ( tfds.as_dataframe ):
conll2002/nl
다운로드 크기 :
3.47 MiB
데이터 세트 크기 :
3.55 MiB
분할 :
나뉘다 | 예 |
---|---|
'dev' | 2,896 |
'test' | 5,196 |
'train' | 15,807 |
- 기능 구조 :
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
너 | 시퀀스(클래스 레이블) | (없음,) | int64 | |
위치 | 시퀀스(클래스 레이블) | (없음,) | int64 | |
토큰 | 시퀀스(텍스트) | (없음,) | 끈 |
- 예 ( tfds.as_dataframe ):