conll2002

  • توضیحات :

وظیفه مشترک CoNLL-2002 مربوط به تشخیص نهاد نامگذاری شده مستقل از زبان است. انواع موجودیت های نامگذاری شده عبارتند از: اشخاص، مکان ها، سازمان ها و نام نهادهای متفرقه که به سه گروه قبلی تعلق ندارند. به شرکت کنندگان این کار مشترک آموزش و داده های آزمون برای حداقل دو زبان ارائه شد. منابع اطلاعاتی غیر از داده های آموزشی ممکن است در این کار مشترک استفاده شده باشد.

@inproceedings{tjong-kim-sang-2002-introduction,
    title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
    author = "Tjong Kim Sang, Erik F.",
    booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
    year = "2002",
    url = "https://aclanthology.org/W02-2024",
}

conll2002/es (پیکربندی پیش فرض)

  • حجم دانلود : 3.95 MiB

  • حجم مجموعه داده : 3.52 MiB

  • تقسیم ها :

شکاف مثال ها
'dev' 1,916
'test' 1,518
'train' 8,324
  • ساختار ویژگی :
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
ner دنباله (ClassLabel) (هیچ یک،) int64
pos دنباله (ClassLabel) (هیچ یک،) int64
توکن ها دنباله (متن) (هیچ یک،) رشته

conll2002/nl

  • حجم دانلود : 3.47 MiB

  • حجم مجموعه داده : 3.55 MiB

  • تقسیم ها :

شکاف مثال ها
'dev' 2,896
'test' 5,196
'train' 15807
  • ساختار ویژگی :
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
ner دنباله (ClassLabel) (هیچ یک،) int64
pos دنباله (ClassLabel) (هیچ یک،) int64
توکن ها دنباله (متن) (هیچ یک،) رشته