- Mô tả :
Nhiệm vụ chung của CoNLL-2002 liên quan đến nhận dạng thực thể được đặt tên độc lập với ngôn ngữ. Các loại thực thể được đặt tên bao gồm: người, địa điểm, tổ chức và tên của các thực thể linh tinh không thuộc ba nhóm trước. Những người tham gia nhiệm vụ được chia sẻ đã được cung cấp dữ liệu đào tạo và thử nghiệm cho ít nhất hai ngôn ngữ. Các nguồn thông tin khác với dữ liệu đào tạo có thể đã được sử dụng trong nhiệm vụ được chia sẻ này.
Trang chủ : https://aclanthology.org/W02-2024/
Mã nguồn :
tfds.text.conll2002.Conll2002
Phiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Tự động lưu vào bộ đệm ( tài liệu ): Có
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@inproceedings{tjong-kim-sang-2002-introduction,
title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
author = "Tjong Kim Sang, Erik F.",
booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
year = "2002",
url = "https://aclanthology.org/W02-2024",
}
conll2002/es (cấu hình mặc định)
Kích thước tải xuống :
3.95 MiB
Kích thước tập dữ liệu :
3.52 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1.916 |
'test' | 1.518 |
'train' | 8,324 |
- Cấu trúc tính năng :
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
ner | Trình tự (Nhãn lớp) | (Không có,) | int64 | |
tư thế | Trình tự (Nhãn lớp) | (Không có,) | int64 | |
mã thông báo | Trình tự (Văn bản) | (Không có,) | chuỗi |
- Ví dụ ( tfds.as_dataframe ):
conll2002/nl
Kích thước tải xuống :
3.47 MiB
Kích thước tập dữ liệu :
3.55 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 2.896 |
'test' | 5,196 |
'train' | 15,807 |
- Cấu trúc tính năng :
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
ner | Trình tự (Nhãn lớp) | (Không có,) | int64 | |
tư thế | Trình tự (Nhãn lớp) | (Không có,) | int64 | |
mã thông báo | Trình tự (Văn bản) | (Không có,) | chuỗi |
- Ví dụ ( tfds.as_dataframe ):