- תיאור :
המשימה המשותפת של CoNLL-2002 נוגעת לזיהוי ישויות בשם בלתי תלוי בשפה. סוגי הישויות הנקובות בשמות כוללים: אנשים, מיקומים, ארגונים ושמות של גופים שונים שאינם שייכים לשלוש הקבוצות הקודמות. למשתתפי המשימה המשותפת הוצעו הכשרה ונתוני מבחן לשתי שפות לפחות. ייתכן שנעשה שימוש במקורות מידע אחרים מלבד נתוני ההדרכה במשימה המשותפת הזו.
דף הבית : https://aclanthology.org/W02-2024/
קוד מקור :
tfds.text.conll2002.Conll2002
גרסאות :
-
1.0.0
(ברירת מחדל): שחרור ראשוני.
-
שמור אוטומטי במטמון ( תיעוד ): כן
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@inproceedings{tjong-kim-sang-2002-introduction,
title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
author = "Tjong Kim Sang, Erik F.",
booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
year = "2002",
url = "https://aclanthology.org/W02-2024",
}
conll2002/es (תצורת ברירת המחדל)
גודל הורדה :
3.95 MiB
גודל ערכת נתונים :
3.52 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'dev' | 1,916 |
'test' | 1,518 |
'train' | 8,324 |
- מבנה תכונה :
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
ner | Sequence (ClassLabel) | (אף אחד,) | int64 | |
pos | Sequence (ClassLabel) | (אף אחד,) | int64 | |
אסימונים | רצף (טקסט) | (אף אחד,) | חוּט |
- דוגמאות ( tfds.as_dataframe ):
conll2002/nl
גודל הורדה :
3.47 MiB
גודל מערך נתונים :
3.55 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'dev' | 2,896 |
'test' | 5,196 |
'train' | 15,807 |
- מבנה תכונה :
FeaturesDict({
'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
'tokens': Sequence(Text(shape=(), dtype=string)),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
ner | Sequence (ClassLabel) | (אף אחד,) | int64 | |
pos | Sequence (ClassLabel) | (אף אחד,) | int64 | |
אסימונים | רצף (טקסט) | (אף אחד,) | חוּט |
- דוגמאות ( tfds.as_dataframe ):