- توضیحات :
این نسخه از مجموعه داده CivilComments دسترسی به هفت برچسب اصلی را که توسط کارگران حاشیهنویسی شدهاند، فراهم میکند، سمیت و برچسبهای دیگر مقداری بین 0 و 1 هستند که نشاندهنده کسری از حاشیهنویسهایی است که این ویژگیها را به متن نظر اختصاص دادهاند.
برچسب های دیگر فقط برای کسری از نمونه های ورودی در دسترس هستند. آنها در حال حاضر برای مجموعه داده اصلی نادیده گرفته می شوند. مجموعه CivilCommentsIdentities شامل آن برچسبها میشود، اما فقط شامل زیرمجموعهای از دادههای همراه با آنها است. سایر ویژگیهایی که بخشی از نسخه اولیه CivilComments بودند، فقط در دادههای خام گنجانده شدهاند. برای جزئیات بیشتر در مورد ویژگی های موجود به مستندات Kaggle مراجعه کنید.
نظرات این مجموعه داده از آرشیو پلتفرم Civil Comments، یک افزونه اظهار نظر برای سایتهای خبری مستقل آمده است. این نظرات عمومی از سال 2015 تا 2017 ایجاد شد و در حدود 50 سایت خبری انگلیسی زبان در سراسر جهان ظاهر شد. هنگامی که Civil Comments در سال 2017 تعطیل شد، آنها تصمیم گرفتند نظرات عمومی را در یک بایگانی باز ماندگار در دسترس قرار دهند تا امکان تحقیقات آینده فراهم شود. دادههای اصلی، منتشر شده در figshare، شامل متن نظر عمومی، برخی فرادادههای مرتبط مانند شناسههای مقاله، شناسههای انتشار، مُهرهای زمانی و برچسبهای "مدنی" تولید شده توسط نظردهنده است، اما شامل شناسههای کاربر نمیشود. Jigsaw این مجموعه داده را با افزودن برچسب های اضافی برای سمیت، ذکر هویت و همچنین توهین مخفیانه گسترش داد. این مجموعه داده کپی دقیقی از داده های منتشر شده برای چالش Jigsaw Unintended Bias in Toxicity Classification Kaggle است. این مجموعه داده تحت CC0 منتشر شده است، همانطور که متن نظر اساسی است.
برای نظراتی که دارای شناسه والدین نیز در داده های نظرات مدنی هستند، متن نظر قبلی به عنوان ویژگی «متن_parent» ارائه می شود. توجه داشته باشید که تقسیم بندی ها بدون توجه به این اطلاعات انجام شده است، بنابراین استفاده از نظرات قبلی ممکن است برخی از اطلاعات را به بیرون درز کند. حاشیه نویس ها هنگام ساخت برچسب ها به متن اصلی دسترسی نداشتند.
صفحه اصلی : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data
کد منبع :
tfds.text.CivilComments
نسخه ها :
-
1.0.0
: انتشار کامل اولیه. -
1.0.1
: برای هر نظر یک شناسه منحصر به فرد اضافه شد. -
1.1.0
: پیکربندی CivilCommentsCovert اضافه شد. -
1.1.1
: پیکربندی CivilCommentsCovert با چک جمع صحیح اضافه شد. -
1.1.2
: نقل قول جداگانه برای مجموعه داده CivilCommentsCovert اضافه شد. -
1.1.3
: تصحیح انواع شناسه از شناور به رشته. -
1.2.0
: ویژگیهای متن سمی، زمینه و نظر والدین را اضافه کنید. -
1.2.1
: اصلاح قالب بندی نادرست در تقسیم های زمینه. -
1.2.2
: به روز رسانی برای منعکس کردن زمینه فقط با تقسیم قطار. -
1.2.3
: با رفع مشکل داده، هشدار را به CivilCommentsCovert اضافه کنید. -
1.2.4
(پیشفرض): شناسههای انتشارات و مُهرهای زمان نظر را اضافه کنید.
-
حجم دانلود :
427.41 MiB
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
civil_comments/CivilComments (پیکربندی پیش فرض)
توضیحات پیکربندی : مجموعه CivilComments در اینجا شامل تمام دادهها میشود، اما فقط هفت برچسب اصلی (سمیت، سمیت_شدید، ناپسند، تهدید، توهین، هویت_حمله، و جنسی_صریح).
حجم مجموعه داده :
1.54 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 97,320 |
'train' | 1,804,874 |
'validation' | 97,320 |
- ساختار ویژگی :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
article_id | تانسور | int32 | ||
ایجاد_تاریخ | تانسور | رشته | ||
شناسه | تانسور | رشته | ||
هویت_حمله | تانسور | float32 | ||
توهین | تانسور | float32 | ||
ناپسند | تانسور | float32 | ||
شناسه اصلی | تانسور | int32 | ||
متن_ پدر و مادر | متن | رشته | ||
publication_id | تانسور | رشته | ||
سمیت_شدید | تانسور | float32 | ||
جنسی_صریح | تانسور | float32 | ||
متن | متن | رشته | ||
تهدید | تانسور | float32 | ||
سمیت | تانسور | float32 |
کلیدهای نظارت شده (نگاه کنید
as_supervised
doc ):('text', 'toxicity')
مثالها ( tfds.as_dataframe ):
- نقل قول :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
civil_comments/CivilCommentsIdentities
توضیحات پیکربندی : مجموعه CivilCommentsIdentities در اینجا شامل مجموعه گستردهای از برچسبهای هویت علاوه بر هفت برچسب اصلی است. با این حال، فقط شامل زیرمجموعه (تقریبا یک چهارم) داده ها با تمام این ویژگی ها است.
حجم مجموعه داده :
654.97 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 21,577 |
'train' | 405,130 |
'validation' | 21,293 |
- ساختار ویژگی :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'created_date': string,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
article_id | تانسور | int32 | ||
آسیایی | تانسور | float32 | ||
بی دین | تانسور | float32 | ||
دوجنس گرا | تانسور | float32 | ||
سیاه | تانسور | float32 | ||
بودایی | تانسور | float32 | ||
مسیحی | تانسور | float32 | ||
ایجاد_تاریخ | تانسور | رشته | ||
زن | تانسور | float32 | ||
دگرجنسگرا | تانسور | float32 | ||
هندو | تانسور | float32 | ||
همجنسگرا_همجنسگرا_یا_لزبین | تانسور | float32 | ||
شناسه | تانسور | رشته | ||
هویت_حمله | تانسور | float32 | ||
توهین | تانسور | float32 | ||
ناتوانی_ذهنی_یا_آموزشی | تانسور | float32 | ||
یهودی | تانسور | float32 | ||
لاتین | تانسور | float32 | ||
نر | تانسور | float32 | ||
مسلمان | تانسور | float32 | ||
ناپسند | تانسور | float32 | ||
other_disability | تانسور | float32 | ||
other_gender | تانسور | float32 | ||
سایر_نژاد_یا_قومیت | تانسور | float32 | ||
دیگر_دین | تانسور | float32 | ||
جهت گیری_جنسی دیگر | تانسور | float32 | ||
شناسه اصلی | تانسور | int32 | ||
متن_ پدر و مادر | متن | رشته | ||
ناتوانی_فیزیکی | تانسور | float32 | ||
بیماری_روانی_یا_روانی | تانسور | float32 | ||
publication_id | تانسور | رشته | ||
سمیت_شدید | تانسور | float32 | ||
جنسی_صریح | تانسور | float32 | ||
متن | متن | رشته | ||
تهدید | تانسور | float32 | ||
سمیت | تانسور | float32 | ||
تغییر جنسیت | تانسور | float32 | ||
سفید | تانسور | float32 |
کلیدهای نظارت شده (نگاه کنید
as_supervised
doc ):('text', 'toxicity')
مثالها ( tfds.as_dataframe ):
- نقل قول :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
civil_comments/CivilCommentsCovert
- توضیحات پیکربندی : هشدار: یک مشکل بالقوه کیفیت داده در CivilCommentsCovert وجود دارد که ما فعالانه در حال رفع آن هستیم (06/28/22). داده های اساسی ممکن است تغییر کند!
مجموعه CivilCommentsCovert زیرمجموعهای از CivilCommentsIdentities است که حدود 20 درصد از تقسیمبندیهای قطار و آزمایش، علاوه بر سمیت و برچسبهای هویت، بیشتر برای توهینهای مخفیانه توضیح داده شده است. از ارزیابها خواسته شد تا نظرات را بهعنوان یکی از صراحتاً، ضمنی، غیرمطمئن بودن یا عدم توهینآمیز بودن و همچنین حاوی انواع مختلف توهینآمیز پنهانی دستهبندی کنند. روش کامل حاشیه نویسی در مقاله آتی در https://sites.google.com/corp/view/hciandnlp/accepted-papers به تفصیل آمده است.
حجم مجموعه داده :
97.83 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 2,455 |
'train' | 48,074 |
- ساختار ویژگی :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'covert_emoticons_emojis': float32,
'covert_humor': float32,
'covert_masked_harm': float32,
'covert_microaggression': float32,
'covert_obfuscation': float32,
'covert_political': float32,
'covert_sarcasm': float32,
'created_date': string,
'explicitly_offensive': float32,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'implicitly_offensive': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'not_offensive': float32,
'not_sure_offensive': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
article_id | تانسور | int32 | ||
آسیایی | تانسور | float32 | ||
بی دین | تانسور | float32 | ||
دوجنس گرا | تانسور | float32 | ||
سیاه | تانسور | float32 | ||
بودایی | تانسور | float32 | ||
مسیحی | تانسور | float32 | ||
covert_emoticons_emojis | تانسور | float32 | ||
پنهان_طنز | تانسور | float32 | ||
مخفی_نقاب_آزاری | تانسور | float32 | ||
مخفی_خراشگری | تانسور | float32 | ||
مخفی_ابهام سازی | تانسور | float32 | ||
پنهان_سیاسی | تانسور | float32 | ||
پنهان_طعنه | تانسور | float32 | ||
ایجاد_تاریخ | تانسور | رشته | ||
به صراحت_توهین آمیز | تانسور | float32 | ||
زن | تانسور | float32 | ||
دگرجنسگرا | تانسور | float32 | ||
هندو | تانسور | float32 | ||
همجنسگرا_همجنسگرا_یا_لزبین | تانسور | float32 | ||
شناسه | تانسور | رشته | ||
هویت_حمله | تانسور | float32 | ||
ضمنی_توهین آمیز | تانسور | float32 | ||
توهین | تانسور | float32 | ||
ناتوانی_ذهنی_یا_آموزشی | تانسور | float32 | ||
یهودی | تانسور | float32 | ||
لاتین | تانسور | float32 | ||
نر | تانسور | float32 | ||
مسلمان | تانسور | float32 | ||
نه_توهین آمیز | تانسور | float32 | ||
not_sure_ofensive | تانسور | float32 | ||
ناپسند | تانسور | float32 | ||
other_disability | تانسور | float32 | ||
other_gender | تانسور | float32 | ||
سایر_نژاد_یا_قومیت | تانسور | float32 | ||
دیگر_دین | تانسور | float32 | ||
جهت گیری_جنسی دیگر | تانسور | float32 | ||
شناسه اصلی | تانسور | int32 | ||
متن_ پدر و مادر | متن | رشته | ||
ناتوانی_فیزیکی | تانسور | float32 | ||
بیماری_روانی_یا_روانی | تانسور | float32 | ||
publication_id | تانسور | رشته | ||
سمیت_شدید | تانسور | float32 | ||
جنسی_صریح | تانسور | float32 | ||
متن | متن | رشته | ||
تهدید | تانسور | float32 | ||
سمیت | تانسور | float32 | ||
تغییر جنسیت | تانسور | float32 | ||
سفید | تانسور | float32 |
کلیدهای نظارت شده (نگاه کنید
as_supervised
doc ):('text', 'toxicity')
مثالها ( tfds.as_dataframe ):
- نقل قول :
@inproceedings{lees-etal-2021-capturing,
title = "Capturing Covertly Toxic Speech via Crowdsourcing",
author = "Lees, Alyssa and
Borkan, Daniel and
Kivlichan, Ian and
Nario, Jorge and
Goyal, Tesh",
booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
month = apr,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
pages = "14--20"
}
civil_comments/CivilCommentsToxicSpans
توضیحات پیکربندی : CivilComments Toxic Spans زیرمجموعه ای از CivilComments هستند که در سطح دهانه برچسب گذاری می شوند - شاخص های تمام مرزهای کاراکترها (نقاط کد یونیکد) که توسط اکثر حاشیه نویس ها به عنوان سمی برچسب گذاری شده بودند در یک ویژگی 'spans' برگردانده می شوند.
حجم مجموعه داده :
5.81 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 2000 |
'train' | 7939 |
'validation' | 682 |
- ساختار ویژگی :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'spans': Tensor(shape=(None,), dtype=int32),
'text': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
article_id | تانسور | int32 | ||
ایجاد_تاریخ | تانسور | رشته | ||
شناسه | تانسور | رشته | ||
شناسه اصلی | تانسور | int32 | ||
متن_ پدر و مادر | متن | رشته | ||
publication_id | تانسور | رشته | ||
دهانه می کند | تانسور | (هیچ یک،) | int32 | |
متن | متن | رشته |
کلیدهای نظارت شده (مشاهده
as_supervised
doc ):('text', 'spans')
مثالها ( tfds.as_dataframe ):
- نقل قول :
@inproceedings{pavlopoulos-etal-2021-semeval,
title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
author = "Pavlopoulos, John and Sorensen, Jeffrey and Laugier, L{'e}o and Androutsopoulos, Ion",
booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.semeval-1.6",
doi = "10.18653/v1/2021.semeval-1.6",
pages = "59--69",
}
civil_comments/CivilCommentsInContext
توضیحات پیکربندی : CivilComments in Context زیرمجموعه ای از CivilComments است که با در دسترس قرار دادن متن والد در اختیار برچسب گذاران برچسب گذاری شده است. این شامل یک ویژگی contextual_toxicity است.
حجم مجموعه داده :
9.63 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 9,969 |
- ساختار ویژگی :
FeaturesDict({
'article_id': int32,
'contextual_toxicity': float32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
article_id | تانسور | int32 | ||
زمینه_سمی | تانسور | float32 | ||
ایجاد_تاریخ | تانسور | رشته | ||
شناسه | تانسور | رشته | ||
هویت_حمله | تانسور | float32 | ||
توهین | تانسور | float32 | ||
ناپسند | تانسور | float32 | ||
شناسه اصلی | تانسور | int32 | ||
متن_ پدر و مادر | متن | رشته | ||
publication_id | تانسور | رشته | ||
سمیت_شدید | تانسور | float32 | ||
جنسی_صریح | تانسور | float32 | ||
متن | متن | رشته | ||
تهدید | تانسور | float32 | ||
سمیت | تانسور | float32 |
کلیدهای نظارت شده (نگاه کنید
as_supervised
doc ):('text', 'toxicity')
مثالها ( tfds.as_dataframe ):
- نقل قول :
@misc{pavlopoulos2020toxicity,
title={Toxicity Detection: Does Context Really Matter?},
author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}