conll2002

  • বর্ণনা :

CoNLL-2002-এর ভাগ করা কাজটি ভাষা-স্বাধীন নামকৃত সত্তার স্বীকৃতি নিয়ে উদ্বিগ্ন। নামধারী সত্ত্বার ধরনগুলির মধ্যে রয়েছে: ব্যক্তি, অবস্থান, সংস্থা এবং বিবিধ সত্তার নাম যা পূর্ববর্তী তিনটি গোষ্ঠীর অন্তর্গত নয়। ভাগ করা টাস্কের অংশগ্রহণকারীদের কমপক্ষে দুটি ভাষার জন্য প্রশিক্ষণ এবং পরীক্ষার ডেটা দেওয়া হয়েছিল। প্রশিক্ষণের ডেটা ব্যতীত অন্য তথ্য উত্সগুলি এই ভাগ করা টাস্কে ব্যবহার করা হতে পারে।

@inproceedings{tjong-kim-sang-2002-introduction,
    title = "Introduction to the {C}o{NLL}-2002 Shared Task: Language-Independent Named Entity Recognition",
    author = "Tjong Kim Sang, Erik F.",
    booktitle = "{COLING}-02: The 6th Conference on Natural Language Learning 2002 ({C}o{NLL}-2002)",
    year = "2002",
    url = "https://aclanthology.org/W02-2024",
}

conll2002/es (ডিফল্ট কনফিগারেশন)

  • ডাউনলোড সাইজ : 3.95 MiB

  • ডেটাসেটের আকার : 3.52 MiB

  • বিভাজন :

বিভক্ত উদাহরণ
'dev' 1,916
'test' 1,518
'train' ৮,৩২৪
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=60)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
ner সিকোয়েন্স (ক্লাসলেবেল) (কোনটিই নয়,) int64
অবস্থান সিকোয়েন্স (ক্লাসলেবেল) (কোনটিই নয়,) int64
টোকেন ক্রম (পাঠ্য) (কোনটিই নয়,) স্ট্রিং

conll2002/nl

  • ডাউনলোড সাইজ : 3.47 MiB

  • ডেটাসেটের আকার : 3.55 MiB

  • বিভাজন :

বিভক্ত উদাহরণ
'dev' 2,896
'test' 5,196
'train' 15,807
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'ner': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=9)),
    'pos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=12)),
    'tokens': Sequence(Text(shape=(), dtype=string)),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
ner সিকোয়েন্স (ক্লাসলেবেল) (কোনটিই নয়,) int64
অবস্থান সিকোয়েন্স (ক্লাসলেবেল) (কোনটিই নয়,) int64
টোকেন ক্রম (পাঠ্য) (কোনটিই নয়,) স্ট্রিং