conll2002

  • Mô tả :

Nhiệm vụ chung của CoNLL-2002 liên quan đến nhận dạng thực thể được đặt tên độc lập với ngôn ngữ. Các loại thực thể được đặt tên bao gồm: người, địa điểm, tổ chức và tên của các thực thể linh tinh không thuộc ba nhóm trước. Những người tham gia nhiệm vụ được chia sẻ đã được cung cấp dữ liệu đào tạo và thử nghiệm cho ít nhất hai ngôn ngữ. Các nguồn thông tin khác với dữ liệu đào tạo có thể đã được sử dụng trong nhiệm vụ được chia sẻ này.

@inproceedings{tjong-kim-sang-2002-introduction,
    title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
    author = "Tjong Kim Sang, Erik F.",
    booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
    year = "2002",
    url = "https://aclanthology.org/W02-2024",
}

conll2002/es (cấu hình mặc định)

  • Kích thước tải xuống : 3.95 MiB

  • Kích thước tập dữ liệu : 3.52 MiB

  • Chia tách :

Tách ra ví dụ
'dev' 1.916
'test' 1.518
'train' 8,324
  • Cấu trúc tính năng :
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự miêu tả
Tính năngDict
ner Trình tự (Nhãn lớp) (Không có,) int64
tư thế Trình tự (Nhãn lớp) (Không có,) int64
mã thông báo Trình tự (Văn bản) (Không có,) chuỗi

conll2002/nl

  • Kích thước tải xuống : 3.47 MiB

  • Kích thước tập dữ liệu : 3.55 MiB

  • Chia tách :

Tách ra ví dụ
'dev' 2.896
'test' 5,196
'train' 15,807
  • Cấu trúc tính năng :
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự miêu tả
Tính năngDict
ner Trình tự (Nhãn lớp) (Không có,) int64
tư thế Trình tự (Nhãn lớp) (Không có,) int64
mã thông báo Trình tự (Văn bản) (Không có,) chuỗi