- תיאור :
גרסה זו של ערכת הנתונים של CivilComments מספקת גישה לשבע התוויות העיקריות שצוינו על ידי עובדי המונים, הרעילות ותגיות אחרות הן ערך בין 0 ל-1 המציין את חלק הכותבים שהקצו את התכונות הללו לטקסט ההערה.
התגים האחרים זמינים רק עבור חלק קטן מדוגמאות הקלט. כרגע מתעלמים מהם עבור מערך הנתונים הראשי; ערכת CivilCommentsIdentities כוללת את התוויות הללו, אך מורכבת רק מתת-קבוצת הנתונים שאיתן. התכונות האחרות שהיו חלק מהמהדורה המקורית של CivilComments נכללות רק בנתונים הגולמיים. עיין בתיעוד של Kaggle לפרטים נוספים על התכונות הזמינות.
ההערות במערך נתונים זה מגיעות מארכיון של פלטפורמת Civil Comments, תוסף תגובות לאתרי חדשות עצמאיים. הערות ציבוריות אלו נוצרו בין השנים 2015 - 2017 והופיעו בכ-50 אתרי חדשות באנגלית ברחבי העולם. כאשר Civil Comments נסגרה בשנת 2017, הם בחרו להפוך את ההערות הציבוריות לזמינות בארכיון פתוח מתמשך כדי לאפשר מחקר עתידי. הנתונים המקוריים, שפורסמו ב- figshare, כוללים את טקסט ההערה הציבורי, כמה מטא נתונים משויכים כגון מזהי מאמרים, מזהי פרסום, חותמות זמן ותוויות "אזרחיות" שנוצרו על ידי מגיבים, אך אינם כוללים מזהי משתמשים. Jigsaw הרחיב את מערך הנתונים על ידי הוספת תוויות נוספות לרעילות, אזכורי זהות, כמו גם פגיעה סמויה. ערכת נתונים זו היא העתק מדויק של הנתונים שפורסמו עבור אתגר ההטיה הבלתי מכוונת של Jigsaw Unintended in Toxicity Classification Kaggle. מערך הנתונים הזה משוחרר תחת CC0, כמו גם טקסט ההערה הבסיסי.
עבור הערות שיש להן parent_id גם בנתוני ההערות האזרחיות, הטקסט של ההערה הקודמת מסופק כתכונה "parent_text". שימו לב שהפיצולים בוצעו ללא התחשבות במידע זה, כך ששימוש בהערות קודמות עלול לדלוף מידע מסוים. לכותבים לא הייתה גישה לטקסט האב בעת יצירת התוויות.
דף הבית : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data
קוד מקור :
tfds.text.CivilComments
גרסאות :
-
1.0.0
: מהדורה מלאה ראשונית. -
1.0.1
: הוסף מזהה ייחודי לכל תגובה. -
1.1.0
: נוספה תצורת CivilCommentsCovert. -
1.1.1
: נוספה תצורת CivilCommentsCovert עם סכום בדיקה נכון. -
1.1.2
: ציטוט נפרד נוסף עבור מערך הנתונים של CivilCommentsCovert. -
1.1.3
: סוגי מזהה מתוקנים מ-float ל-string. -
1.2.0
: הוסף תכונות טקסט של טווחים רעילים, הקשר ותגובות הורה. -
1.2.1
: תקן עיצוב שגוי בפיצולי הקשר. -
1.2.2
: עדכון לשקף הקשר רק עם פיצול רכבת. -
1.2.3
: הוסף אזהרה ל-CivilCommentsCovert כאשר אנו מתקנים בעיית נתונים. -
1.2.4
(ברירת מחדל): הוסף מזהי פרסום וחותמות זמן של הערות.
-
גודל הורדה :
427.41 MiB
איור ( tfds.show_examples ): לא נתמך.
civil_comments/CivilComments (תצורת ברירת המחדל)
תיאור תצורה : ה-CivilComments שהוגדר כאן כולל את כל הנתונים, אבל רק את שבע התוויות הבסיסיות (רעילות, רעילות חמורה, מגונה, איום, עלבון, התקפה_זהות ומיני_מפורש).
גודל מערך נתונים :
1.54 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 97,320 |
'train' | 1,804,874 |
'validation' | 97,320 |
- מבנה תכונה :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
מאמר_מזהה | מוֹתֵחַ | int32 | ||
תאריך יצירה | מוֹתֵחַ | חוּט | ||
תְעוּדַת זֶהוּת | מוֹתֵחַ | חוּט | ||
התקפה_זהות | מוֹתֵחַ | לצוף32 | ||
לְהַעֲלִיב | מוֹתֵחַ | לצוף32 | ||
מְגוּנֶה | מוֹתֵחַ | לצוף32 | ||
parent_id | מוֹתֵחַ | int32 | ||
parent_text | טֶקסט | חוּט | ||
publication_id | מוֹתֵחַ | חוּט | ||
רעילות_קשה | מוֹתֵחַ | לצוף32 | ||
מינית_מפורשת | מוֹתֵחַ | לצוף32 | ||
טֶקסט | טֶקסט | חוּט | ||
אִיוּם | מוֹתֵחַ | לצוף32 | ||
רַעֲלָנוּת | מוֹתֵחַ | לצוף32 |
מפתחות בפיקוח (ראה
as_supervised
doc ):('text', 'toxicity')
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
civil_comments/CivilCommentsIdentities
תיאור תצורה : ה-CivilCommentsIdentities שהוגדר כאן כולל קבוצה מורחבת של תוויות זהות בנוסף לשבע התוויות הבסיסיות. עם זאת, הוא כולל רק את קבוצת המשנה (בערך רבע) מהנתונים עם כל התכונות הללו.
גודל ערכת נתונים :
654.97 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 21,577 |
'train' | 405,130 |
'validation' | 21,293 |
- מבנה תכונה :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'created_date': string,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
מאמר_מזהה | מוֹתֵחַ | int32 | ||
אסיה | מוֹתֵחַ | לצוף32 | ||
אָתֵאִיסְט | מוֹתֵחַ | לצוף32 | ||
דוּ מִינִי | מוֹתֵחַ | לצוף32 | ||
שָׁחוֹר | מוֹתֵחַ | לצוף32 | ||
בודהיסטית | מוֹתֵחַ | לצוף32 | ||
נוצרי | מוֹתֵחַ | לצוף32 | ||
תאריך יצירה | מוֹתֵחַ | חוּט | ||
נְקֵבָה | מוֹתֵחַ | לצוף32 | ||
הטרוסקסואל | מוֹתֵחַ | לצוף32 | ||
הינדי | מוֹתֵחַ | לצוף32 | ||
הומוסקסואל_הומו_או_לסבית | מוֹתֵחַ | לצוף32 | ||
תְעוּדַת זֶהוּת | מוֹתֵחַ | חוּט | ||
התקפה_זהות | מוֹתֵחַ | לצוף32 | ||
לְהַעֲלִיב | מוֹתֵחַ | לצוף32 | ||
לקות_שכלית_או_למידה | מוֹתֵחַ | לצוף32 | ||
יהודי | מוֹתֵחַ | לצוף32 | ||
לטינו | מוֹתֵחַ | לצוף32 | ||
זָכָר | מוֹתֵחַ | לצוף32 | ||
מוסלמי | מוֹתֵחַ | לצוף32 | ||
מְגוּנֶה | מוֹתֵחַ | לצוף32 | ||
נכות_אחרת | מוֹתֵחַ | לצוף32 | ||
מגדר אחר | מוֹתֵחַ | לצוף32 | ||
אחר_גזע_או_אתניות | מוֹתֵחַ | לצוף32 | ||
דת_אחרת | מוֹתֵחַ | לצוף32 | ||
נטייה_מינית_אחרת | מוֹתֵחַ | לצוף32 | ||
parent_id | מוֹתֵחַ | int32 | ||
parent_text | טֶקסט | חוּט | ||
מוגבלות פיזית | מוֹתֵחַ | לצוף32 | ||
מחלת_נפש פסיכיאטרית | מוֹתֵחַ | לצוף32 | ||
publication_id | מוֹתֵחַ | חוּט | ||
רעילות_קשה | מוֹתֵחַ | לצוף32 | ||
מינית_מפורשת | מוֹתֵחַ | לצוף32 | ||
טֶקסט | טֶקסט | חוּט | ||
אִיוּם | מוֹתֵחַ | לצוף32 | ||
רַעֲלָנוּת | מוֹתֵחַ | לצוף32 | ||
טרנסג'נדר | מוֹתֵחַ | לצוף32 | ||
לבן | מוֹתֵחַ | לצוף32 |
מפתחות בפיקוח (ראה
as_supervised
doc ):('text', 'toxicity')
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
civil_comments/CivilCommentsCovert
- תיאור תצורה : אזהרה: קיימת בעיית איכות נתונים פוטנציאלית ב-CivilCommentsCovert שאנו עובדים על תיקון (06/28/22); הנתונים הבסיסיים עשויים להשתנות!
ערכת CivilCommentsCovert היא תת-קבוצה של CivilCommentsIdentities עם ~20% מפיצולי הרכבת והניסויים מוזכרים יותר עבור פגיעה סמויה, בנוסף לתוויות הרעילות והזהות. המדרגים התבקשו לסווג הערות כאחת של הערות מפורשות, מרומזות, לא, או לא בטוחות אם הן פוגעניות, וכן האם היא מכילה סוגים שונים של פגיעה סמויה. הליך ההערה המלא מפורט במאמר שייצא בקרוב בכתובת https://sites.google.com/corp/view/hciandnlp/accepted-papers
גודל ערכת נתונים :
97.83 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 2,455 |
'train' | 48,074 |
- מבנה תכונה :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'covert_emoticons_emojis': float32,
'covert_humor': float32,
'covert_masked_harm': float32,
'covert_microaggression': float32,
'covert_obfuscation': float32,
'covert_political': float32,
'covert_sarcasm': float32,
'created_date': string,
'explicitly_offensive': float32,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'implicitly_offensive': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'not_offensive': float32,
'not_sure_offensive': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
מאמר_מזהה | מוֹתֵחַ | int32 | ||
אסיה | מוֹתֵחַ | לצוף32 | ||
אָתֵאִיסְט | מוֹתֵחַ | לצוף32 | ||
דוּ מִינִי | מוֹתֵחַ | לצוף32 | ||
שָׁחוֹר | מוֹתֵחַ | לצוף32 | ||
בודהיסטית | מוֹתֵחַ | לצוף32 | ||
נוצרי | מוֹתֵחַ | לצוף32 | ||
אמוג'י_סמויים_סמויים | מוֹתֵחַ | לצוף32 | ||
הומור_סמוי | מוֹתֵחַ | לצוף32 | ||
פגיעה_מסווה_סמויה | מוֹתֵחַ | לצוף32 | ||
מיקרו-אגרסיביות_סמויה | מוֹתֵחַ | לצוף32 | ||
ערפול_סמויה | מוֹתֵחַ | לצוף32 | ||
סמוי_פוליטי | מוֹתֵחַ | לצוף32 | ||
סרקזם_סמוי | מוֹתֵחַ | לצוף32 | ||
תאריך יצירה | מוֹתֵחַ | חוּט | ||
בפירוש_פוגעני | מוֹתֵחַ | לצוף32 | ||
נְקֵבָה | מוֹתֵחַ | לצוף32 | ||
הטרוסקסואל | מוֹתֵחַ | לצוף32 | ||
הינדי | מוֹתֵחַ | לצוף32 | ||
הומוסקסואל_הומו_או_לסבית | מוֹתֵחַ | לצוף32 | ||
תְעוּדַת זֶהוּת | מוֹתֵחַ | חוּט | ||
התקפה_זהות | מוֹתֵחַ | לצוף32 | ||
במרומז_פוגעני | מוֹתֵחַ | לצוף32 | ||
לְהַעֲלִיב | מוֹתֵחַ | לצוף32 | ||
לקות_שכלית_או_למידה | מוֹתֵחַ | לצוף32 | ||
יהודי | מוֹתֵחַ | לצוף32 | ||
לטינו | מוֹתֵחַ | לצוף32 | ||
זָכָר | מוֹתֵחַ | לצוף32 | ||
מוסלמי | מוֹתֵחַ | לצוף32 | ||
לא_פוגעני | מוֹתֵחַ | לצוף32 | ||
לא_בטוח_פוגע | מוֹתֵחַ | לצוף32 | ||
מְגוּנֶה | מוֹתֵחַ | לצוף32 | ||
נכות_אחרת | מוֹתֵחַ | לצוף32 | ||
מגדר אחר | מוֹתֵחַ | לצוף32 | ||
אחר_גזע_או_אתניות | מוֹתֵחַ | לצוף32 | ||
דת_אחרת | מוֹתֵחַ | לצוף32 | ||
נטייה_מינית_אחרת | מוֹתֵחַ | לצוף32 | ||
parent_id | מוֹתֵחַ | int32 | ||
parent_text | טֶקסט | חוּט | ||
מוגבלות פיזית | מוֹתֵחַ | לצוף32 | ||
מחלת_נפש פסיכיאטרית | מוֹתֵחַ | לצוף32 | ||
publication_id | מוֹתֵחַ | חוּט | ||
רעילות_קשה | מוֹתֵחַ | לצוף32 | ||
מינית_מפורשת | מוֹתֵחַ | לצוף32 | ||
טֶקסט | טֶקסט | חוּט | ||
אִיוּם | מוֹתֵחַ | לצוף32 | ||
רַעֲלָנוּת | מוֹתֵחַ | לצוף32 | ||
טרנסג'נדר | מוֹתֵחַ | לצוף32 | ||
לבן | מוֹתֵחַ | לצוף32 |
מפתחות בפיקוח (ראה
as_supervised
doc ):('text', 'toxicity')
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@inproceedings{lees-etal-2021-capturing,
title = "Capturing Covertly Toxic Speech via Crowdsourcing",
author = "Lees, Alyssa and
Borkan, Daniel and
Kivlichan, Ian and
Nario, Jorge and
Goyal, Tesh",
booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
month = apr,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
pages = "14--20"
}
civil_comments/CivilCommentsToxicSpans
תיאור תצורה : ה-CivilComments Toxic Spans הם תת-קבוצה של CivilComments המסומנת ברמת הטווח - המדדים של כל גבולות התווים (נקודות קוד Unicode) שתויגו כרעילים על ידי רוב המעריכים מוחזרים בתכונת 'מרווחים'.
גודל מערך נתונים :
5.81 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 2,000 |
'train' | 7,939 |
'validation' | 682 |
- מבנה תכונה :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'spans': Tensor(shape=(None,), dtype=int32),
'text': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
מאמר_מזהה | מוֹתֵחַ | int32 | ||
תאריך יצירה | מוֹתֵחַ | חוּט | ||
תְעוּדַת זֶהוּת | מוֹתֵחַ | חוּט | ||
parent_id | מוֹתֵחַ | int32 | ||
parent_text | טֶקסט | חוּט | ||
publication_id | מוֹתֵחַ | חוּט | ||
משתרעים | מוֹתֵחַ | (אף אחד,) | int32 | |
טֶקסט | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):('text', 'spans')
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@inproceedings{pavlopoulos-etal-2021-semeval,
title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
author = "Pavlopoulos, John and Sorensen, Jeffrey and Laugier, L{'e}o and Androutsopoulos, Ion",
booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.semeval-1.6",
doi = "10.18653/v1/2021.semeval-1.6",
pages = "59--69",
}
civil_comments/CivilCommentsInContext
תיאור תצורה : ה-CivilComments בהקשר הוא תת-קבוצה של CivilComments שסומנה על-ידי הפיכת ה-parent_text לזמינה למתייגים. הוא כולל תכונת הקשר_טוקסיות.
גודל ערכת נתונים :
9.63 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 9,969 |
- מבנה תכונה :
FeaturesDict({
'article_id': int32,
'contextual_toxicity': float32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
מאמר_מזהה | מוֹתֵחַ | int32 | ||
רעילות_הקשרית | מוֹתֵחַ | לצוף32 | ||
תאריך יצירה | מוֹתֵחַ | חוּט | ||
תְעוּדַת זֶהוּת | מוֹתֵחַ | חוּט | ||
התקפה_זהות | מוֹתֵחַ | לצוף32 | ||
לְהַעֲלִיב | מוֹתֵחַ | לצוף32 | ||
מְגוּנֶה | מוֹתֵחַ | לצוף32 | ||
parent_id | מוֹתֵחַ | int32 | ||
parent_text | טֶקסט | חוּט | ||
publication_id | מוֹתֵחַ | חוּט | ||
רעילות_קשה | מוֹתֵחַ | לצוף32 | ||
מינית_מפורשת | מוֹתֵחַ | לצוף32 | ||
טֶקסט | טֶקסט | חוּט | ||
אִיוּם | מוֹתֵחַ | לצוף32 | ||
רַעֲלָנוּת | מוֹתֵחַ | לצוף32 |
מפתחות בפיקוח (ראה
as_supervised
doc ):('text', 'toxicity')
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@misc{pavlopoulos2020toxicity,
title={Toxicity Detection: Does Context Really Matter?},
author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}