- תיאור :
מערך הנתונים Diversity in Conversational AI Evaluation for Safety ( DICES ).
גישות למידת מכונה מאומנות ומוערכות לעתים קרובות עם מערכי נתונים הדורשים הפרדה ברורה בין דוגמאות חיוביות ושליליות. גישה זו מפשטת יתר על המידה את הסובייקטיביות הטבעית הקיימת במשימות ובפריטי תוכן רבים. הוא גם מטשטש את הגיוון המובנה בתפיסות ובדעות האנושיות. לעתים קרובות משימות המנסות לשמר את השונות בתוכן ובמגוון בבני אדם הן די יקרות ומייגעות. כדי להשלים את הפער הזה ולאפשר ניתוחי ביצועים מעמיקים יותר של מודלים, אנו מציעים את מערך הנתונים של DICES - מערך נתונים ייחודי עם נקודות מבט מגוונות על הבטיחות של שיחות שנוצרו על ידי AI. אנו מתמקדים במשימה של הערכת בטיחות של מערכות בינה מלאכותית שיחה. מערך הנתונים של DICES מכיל מידע דמוגרפי מפורט על כל מדרג, שכפול גבוה במיוחד של דירוגים ייחודיים לשיחה כדי להבטיח מובהקות סטטיסטית של ניתוחים נוספים ומקודד הצבעות המדרגים כהפצות על פני דמוגרפיה שונות כדי לאפשר חקירה מעמיקה של אסטרטגיות צבירת דירוג שונות.
מערך נתונים זה מתאים היטב לצפייה ולמדוד שונות, עמימות וגיוון בהקשר של בטיחות של AI שיחה. מערך הנתונים מלווה במאמר המתאר קבוצה של מדדים המראים כיצד מגוון המדרגים משפיע על תפיסת הבטיחות של המדרגים מאזורים גיאוגרפיים שונים, קבוצות אתניות, קבוצות גיל ומגדרים. המטרה של מערך הנתונים של DICES היא לשמש כמדד משותף להערכת בטיחות של מערכות בינה מלאכותית לשיחה.
אזהרת תוכן : מערך נתונים זה מכיל דוגמאות יריבות לשיחות שעלולות להיות פוגעניות.
דף הבית : https://github.com/google-research-datasets/dices-dataset
קוד מקור :
tfds.datasets.dices.Builder
גרסאות :
-
1.0.0
(ברירת מחדל): שחרור ראשוני.
-
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@article{aroyo2024dices,
title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
journal={Advances in Neural Information Processing Systems},
volume={36},
year={2024}
}
קוביות/350 (תצורת ברירת מחדל)
תיאור תצורה : ערכת נתונים 350 מכילה 350 שיחות שדורגו על ידי מאגר מדרגים מגוון של 123 מדרגים ייחודיים. כל שיחה מדורגת עם חמש קטגוריות בטיחות ברמה העליונה ושאלת הבנה כוללת אחת של השיחה. המדרגים שגויסו היו מאוזנים לפי מגדר (גבר או אישה), גזע/אתניות (לבן, שחור, לטינית, אסיה, רב גזעי) וכל מדורג דירג את כל הפריטים. כל מדרג דירג את כל השיחות. לכל שיחה יש 123 דירוגים ייחודיים. המספר הכולל של שורות במערך נתונים זה הוא 43050.
גודל הורדה :
29.70 MiB
גודל מערך נתונים :
74.43 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 43,050 |
- מבנה תכונה :
FeaturesDict({
'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'answer_time_ms': Scalar(shape=(), dtype=int64, description=Amount of time spent by each rater on each safety annotation question.),
'answer_timestamp': Scalar(shape=(), dtype=int64, description=Time when each conversation was rated by each rater.),
'context': Text(shape=(), dtype=string),
'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
'rater_raw_race': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
'safety_gold_reason': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מַחלָקָה | צוּרָה | Dtype | תֵאוּר |
---|---|---|---|---|
FeaturesDict | ||||
שאלה 1_הערכת_שיחה_שלמה | ClassLabel | int64 | דירוג לגבי ההבנה של שיחה. | |
שאלה 2_תוכן_מזיק_תוכן_מסוכן | ClassLabel | int64 | ||
שאלה 2_חריגה_של_סירה_תוכן מזיק | ClassLabel | int64 | ||
Q2_harmful_content_insensitive | ClassLabel | int64 | ||
Q2_harmful_content_medical_legal_financial_or_relationship advice | ClassLabel | int64 | ||
שאלה 2_תוכן_מזיק_מגונה_ומחולל | ClassLabel | int64 | ||
Q2_harmful_content_other | ClassLabel | int64 | ||
Q2_harmful_content_general | ClassLabel | int64 | ||
Q2_harmful_content_personal_information | ClassLabel | int64 | ||
שאלה 2_מוצרים_מזיקים_בפיקוח | ClassLabel | int64 | ||
שאלה 2_תוכן_מזיק_תוכן_מיני_סוגסטי | ClassLabel | int64 | ||
Q3_bias_other | ClassLabel | int64 | ||
Q3_bias_general | ClassLabel | int64 | ||
Q3_bias_targeting_beliefs | ClassLabel | int64 | ||
Q3_bias_targeting_gender_sexualorientation | ClassLabel | int64 | ||
Q3_bias_targeting_herited_attributes | ClassLabel | int64 | ||
Q3_bias_targeting_status | ClassLabel | int64 | ||
Q4_מידע שגוי | ClassLabel | int64 | ||
שאלה 5_שיוך_פוליטי | ClassLabel | int64 | ||
Q6_policy_guidelines_endorsement | ClassLabel | int64 | ||
Q6_policy_guidelines_other | ClassLabel | int64 | ||
שאלה 6_מדיניות_הנחיות_כולל | ClassLabel | int64 | ||
Q6_policy_guidelines_polarizing_topics | ClassLabel | int64 | ||
Q_בכלל | ClassLabel | int64 | ||
time_time_ms | סקלר | int64 | משך הזמן שהשקיע כל מדורג בכל שאלה של הערת בטיחות. | |
answer_timestamp | סקלר | int64 | הזמן שבו כל שיחה דורגה על ידי כל מדרג. | |
הֶקשֵׁר | טֶקסט | חוּט | השיחה הופכת לפני התגובה הסופית של הצ'אטבוט. | |
דרגת_פגיעה | ClassLabel | int64 | דירוג ידנית של חומרת הסיכון הבטיחותי. | |
Harm_type | Sequence (ClassLabel) | (אַף לֹא אֶחָד,) | int64 | נושאי שיחה עם הערות ידניות. |
תְעוּדַת זֶהוּת | סקלר | int64 | מזהה מספרי עבור כל שורה, המייצג את כל הדירוגים על ידי מדרג יחיד לשיחה בודדת. | |
item_id | סקלר | int64 | מזהה מספרי לכל שיחה. | |
שָׁלָב | ClassLabel | int64 | אחת משלוש תקופות זמן שונות. | |
מדרג_גיל | ClassLabel | int64 | קבוצת הגיל של המדרג. | |
מדרג_חינוך | ClassLabel | int64 | השכלתו של המדרג. | |
rater_gender | ClassLabel | int64 | מינו של המדרג. | |
rater_id | סקלר | int64 | מזהה מספרי עבור כל מדרג. | |
rater_race | ClassLabel | int64 | הגזע/אתניות של המדרג. | |
rater_raw_race | טֶקסט | חוּט | הגזע הגולמי/אתני המדווח על עצמו של המדרג, לפני הפישוט לחמש קטגוריות. | |
תְגוּבָה | טֶקסט | חוּט | תגובת הצ'אטבוט האחרונה בשיחה. | |
בטיחות_זהב | ClassLabel | int64 | תווית הבטיחות בתקן הזהב מסופקת על ידי מומחים. | |
סיבת_זהב_בטיחות | טֶקסט | חוּט | הסיבה (אם ניתנה) לתווית הבטיחות המוזהבת שסופקה על ידי מומחים. |
- דוגמאות ( tfds.as_dataframe ):
קוביות/990
תיאור תצורה : ערכת נתונים 990 מכילה 990 שיחות שדורגו על ידי מאגר מדרגים מגוון של 173 מדרגים ייחודיים. כל שיחה מדורגת עם שלוש קטגוריות בטיחות ברמה העליונה ושאלת הבנת שיחה כוללת אחת. המדרגים גויסו כך שמספר המדרגים לכל שיחה היה מאוזן לפי מגדר (גבר, אישה) ומקום (ארה"ב, הודו). כל מדרג דירג רק מדגם מהשיחה. לכל שיחה יש 60-70 דירוגים ייחודיים. המספר הכולל של שורות במערך נתונים זה הוא 72103.
גודל הורדה :
48.06 MiB
גודל מערך נתונים :
150.38 MiB
שמור אוטומטי במטמון ( תיעוד ): רק כאשר
shuffle_files=False
(רכבת)פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 72,103 |
- מבנה תכונה :
FeaturesDict({
'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'context': Text(shape=(), dtype=string),
'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
'rater_raw_race': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מַחלָקָה | צוּרָה | Dtype | תֵאוּר |
---|---|---|---|---|
FeaturesDict | ||||
שאלה 1_הערכת_שיחה_שלמה | ClassLabel | int64 | דירוג לגבי ההבנה של שיחה. | |
Q2_harmful_content_explainly_sexual | ClassLabel | int64 | ||
שאלה 2_עצה_פיננסית_מזיקה | ClassLabel | int64 | ||
שאלה2_תוכן_מזיק_פגיעה_לאנשים_או_בעלי חיים | ClassLabel | int64 | ||
שאלה 2_תביעות_בריאות_ובטיחות_מזיקות | ClassLabel | int64 | ||
Q2_harmful_content_how_tos_about_harmful_activities | ClassLabel | int64 | ||
שאלה 2_תוכן_מזיק_גסויות_או_לשון הרע | ClassLabel | int64 | ||
Q2_harmful_content_other | ClassLabel | int64 | ||
Q2_harmful_content_general | ClassLabel | int64 | ||
Q2_harmful_content_personal_information | ClassLabel | int64 | ||
שאלה 2_תוכן_מזיק_מקדם_או_מתנגד_שימוש_במוצרים_בפיקוח_מזיקים | ClassLabel | int64 | ||
שאלה 2_תוכן_מזיק_מקדם_או_מתנשא לאלימות | ClassLabel | int64 | ||
Q2_harmful_content_violent_or_gory | ClassLabel | int64 | ||
שאלה 3_3_הכפשות_דתיות_על_גזעיות_או_אחרות_וסטריאוטיפים_המסיתים_או_מקדמים_שנאה על סמך_כל אחת מהתכונות שצוינו לעיל | ClassLabel | int64 | ||
Q3_bias_cing_individuals_or_groups_evil_corrupt or malicious | ClassLabel | int64 | ||
שאלה 3_הטיה_מסיתה_שנאה | ClassLabel | int64 | ||
שאלה 3_עלבונות_הטיות_על_משיכה_רומנטית_ו_או_מינית_רגשית | ClassLabel | int64 | ||
Q3_bias_other | ClassLabel | int64 | ||
Q3_bias_פזית_או_מנטלית_נחיתות | ClassLabel | int64 | ||
Q3_bias_subhuman_comparisons | ClassLabel | int64 | ||
שאלה 3_הטיה_מעלות_או_הכנעה_של_קבוצה | ClassLabel | int64 | ||
Q3_unfair_bias_בכלל | ClassLabel | int64 | ||
שאלה 4_תיאוריות_קונספירציה_שגויות | ClassLabel | int64 | ||
Q4_misinformation_contradicts_expert_consensus | ClassLabel | int64 | ||
Q4_misinformation_false_theories | ClassLabel | int64 | ||
Q4_misinformation_other | ClassLabel | int64 | ||
Q4_misinformation_overall | ClassLabel | int64 | ||
Q4_misinformation_political | ClassLabel | int64 | ||
Q_בכלל | ClassLabel | int64 | ||
הֶקשֵׁר | טֶקסט | חוּט | השיחה הופכת לפני התגובה הסופית של הצ'אטבוט. | |
דרגת_פגיעה | ClassLabel | int64 | דירוג ידנית של חומרת הסיכון הבטיחותי. | |
נזק_סוג | Sequence (ClassLabel) | (אַף לֹא אֶחָד,) | int64 | נושאי שיחה עם הערות ידניות. |
תְעוּדַת זֶהוּת | סקלר | int64 | מזהה מספרי עבור כל שורה, המייצג את כל הדירוגים על ידי מדרג יחיד לשיחה בודדת. | |
item_id | סקלר | int64 | מזהה מספרי לכל שיחה. | |
שָׁלָב | ClassLabel | int64 | אחת משלוש תקופות זמן שונות. | |
מדרג_גיל | ClassLabel | int64 | קבוצת הגיל של המדרג. | |
מדרג_חינוך | ClassLabel | int64 | השכלתו של המדרג. | |
rater_gender | ClassLabel | int64 | מינו של המדרג. | |
rater_id | סקלר | int64 | מזהה מספרי עבור כל מדרג. | |
rater_locale | ClassLabel | int64 | המקום של המדרג. | |
rater_race | ClassLabel | int64 | הגזע/אתניות של המדרג. | |
rater_raw_race | טֶקסט | חוּט | הגזע הגולמי/אתני המדווח על עצמו של המדרג, לפני הפישוט לחמש קטגוריות. | |
תְגוּבָה | טֶקסט | חוּט | תגובת הצ'אטבוט האחרונה בשיחה. |
- דוגמאות ( tfds.as_dataframe ):