wikipedia_toxicity_subtypes

  • توضیحات :

نظرات این مجموعه داده از آرشیو نظرات صفحه بحث ویکی پدیا آمده است. این موارد توسط Jigsaw برای سمیت، و همچنین (برای پیکربندی اصلی) انواع زیرگروه سمیت، از جمله سمیت شدید، فحاشی، زبان تهدید، زبان توهین آمیز، و حملات هویتی حاشیه نویسی شده است. این مجموعه داده کپی داده‌های منتشر شده برای چالش طبقه‌بندی نظرات سمی Jigsaw و رقابت طبقه‌بندی نظرات سمی چندزبانه Jigsaw در Kaggle است، با مجموعه داده‌های آزمایشی با برچسب‌های test ادغام شده پس از پایان رقابت‌ها. داده‌های آزمایشی که برای امتیازدهی استفاده نشده است حذف شده است. این مجموعه داده تحت CC0 منتشر شده است، همانطور که متن نظر اساسی است.

  • کد منبع : tfds.text.WikipediaToxicitySubtypes

  • نسخه ها :

    • 0.2.0 : ویژگی های به روز شده برای سازگاری با مجموعه داده CivilComments.
    • 0.3.0 : WikipediaToxicity پیکربندی چند زبانه اضافه شد.
    • 0.3.1 (پیش فرض): یک شناسه منحصر به فرد برای هر نظر اضافه شده است. (برای پیکربندی چند زبانه، اینها فقط در هر تقسیم منحصر به فرد هستند.)
  • حجم دانلود : 50.57 MiB

  • ذخیره خودکار ( اسناد ): بله

  • کلیدهای نظارت شده (نگاه کنید به as_supervised doc ): ('text', 'toxicity')

  • شکل ( tfds.show_examples ): پشتیبانی نمی شود.

  • نقل قول :

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toxicity_subtypes/EnglishSubtypes (پیکربندی پیش‌فرض)

  • توضیحات پیکربندی : نظرات موجود در پیکربندی WikipediaToxicitySubtypes از آرشیو نظرات صفحه بحث ویکی‌پدیا انگلیسی است که توسط Jigsaw برای سمیت، و همچنین پنج برچسب زیرمجموعه سمیت (مسمومیت شدید، زشت، تهدید، توهین، حمله به هویت) حاشیه‌نویسی شده است. برچسب‌های زیرگروه سمیت و سمیت مقادیر باینری (0 یا 1) هستند که نشان می‌دهد آیا اکثر حاشیه‌نویس‌ها آن ویژگی را به متن نظر اختصاص داده‌اند یا خیر. این پیکربندی کپی داده‌های منتشر شده برای چالش طبقه‌بندی نظرات سمی Jigsaw در Kaggle است، با مجموعه داده‌های آزمایشی به test_label‌های منتشر شده پس از مسابقه و داده‌های آزمایشی که برای امتیازدهی استفاده نمی‌شوند، کاهش یافته است.

برای جزئیات بیشتر به مستندات Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data یا https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 مراجعه کنید.

شکاف مثال ها
'test' 63,978
'train' 159,571
  • ساختار ویژگی :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'identity_attack': float32,
    'insult': float32,
    'language': Text(shape=(), dtype=string),
    'obscene': float32,
    'severe_toxicity': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
شناسه متن رشته
هویت_حمله تانسور float32
توهین تانسور float32
زبان متن رشته
ناپسند تانسور float32
سمیت_شدید تانسور float32
متن متن رشته
تهدید تانسور float32
سمیت تانسور float32

wikipedia_toxicity_subtypes/Multilingual

  • توضیحات پیکربندی : نظرات موجود در پیکربندی WikipediaToxicityMultilingual در اینجا از آرشیو نظرات صفحه بحث ویکی‌پدیا غیرانگلیسی است که توسط Jigsaw برای سمیت حاشیه‌نویسی شده است، با یک مقدار دودویی (0 یا 1) که نشان می‌دهد آیا اکثر حاشیه‌نویس‌ها متن نظر را سمی ارزیابی کرده‌اند یا خیر. نظرات در این پیکربندی به چندین زبان مختلف (ترکی، ایتالیایی، اسپانیایی، پرتغالی، روسی و فرانسوی) است. این پیکربندی کپی داده‌ای است که برای طبقه‌بندی نظرات سمی چندزبانه Jigsaw در Kaggle منتشر شده است، با مجموعه داده‌های آزمایشی که به test_label‌های منتشر شده پس از مسابقه ملحق شده‌اند.

برای جزئیات بیشتر به مستندات Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data مراجعه کنید.

شکاف مثال ها
'test' 63,812
'validation' 8000
  • ساختار ویژگی :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'language': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'toxicity': float32,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
شناسه متن رشته
زبان متن رشته
متن متن رشته
سمیت تانسور float32