קוביות

  • תיאור :

מערך הנתונים Diversity in Conversational AI Evaluation for Safety ( DICES ).

גישות למידת מכונה מאומנות ומוערכות לעתים קרובות עם מערכי נתונים הדורשים הפרדה ברורה בין דוגמאות חיוביות ושליליות. גישה זו מפשטת יתר על המידה את הסובייקטיביות הטבעית הקיימת במשימות ובפריטי תוכן רבים. הוא גם מטשטש את הגיוון המובנה בתפיסות ובדעות האנושיות. לעתים קרובות משימות המנסות לשמר את השונות בתוכן ובמגוון בבני אדם הן די יקרות ומייגעות. כדי להשלים את הפער הזה ולאפשר ניתוחי ביצועים מעמיקים יותר של מודלים, אנו מציעים את מערך הנתונים של DICES - מערך נתונים ייחודי עם נקודות מבט מגוונות על הבטיחות של שיחות שנוצרו על ידי AI. אנו מתמקדים במשימה של הערכת בטיחות של מערכות בינה מלאכותית שיחה. מערך הנתונים של DICES מכיל מידע דמוגרפי מפורט על כל מדרג, שכפול גבוה במיוחד של דירוגים ייחודיים לשיחה כדי להבטיח מובהקות סטטיסטית של ניתוחים נוספים ומקודד הצבעות המדרגים כהפצות על פני דמוגרפיה שונות כדי לאפשר חקירה מעמיקה של אסטרטגיות צבירת דירוג שונות.

מערך נתונים זה מתאים היטב לצפייה ולמדוד שונות, עמימות וגיוון בהקשר של בטיחות של AI שיחה. מערך הנתונים מלווה במאמר המתאר קבוצה של מדדים המראים כיצד מגוון המדרגים משפיע על תפיסת הבטיחות של המדרגים מאזורים גיאוגרפיים שונים, קבוצות אתניות, קבוצות גיל ומגדרים. המטרה של מערך הנתונים של DICES היא לשמש כמדד משותף להערכת בטיחות של מערכות בינה מלאכותית לשיחה.

אזהרת תוכן : מערך נתונים זה מכיל דוגמאות יריבות לשיחות שעלולות להיות פוגעניות.

@article{aroyo2024dices,
  title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
  author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
  journal={Advances in Neural Information Processing Systems},
  volume={36},
  year={2024}
}

קוביות/350 (תצורת ברירת מחדל)

  • תיאור תצורה : ערכת נתונים 350 מכילה 350 שיחות שדורגו על ידי מאגר מדרגים מגוון של 123 מדרגים ייחודיים. כל שיחה מדורגת עם חמש קטגוריות בטיחות ברמה העליונה ושאלת הבנה כוללת אחת של השיחה. המדרגים שגויסו היו מאוזנים לפי מגדר (גבר או אישה), גזע/אתניות (לבן, שחור, לטינית, אסיה, רב גזעי) וכל מדורג דירג את כל הפריטים. כל מדרג דירג את כל השיחות. לכל שיחה יש 123 דירוגים ייחודיים. המספר הכולל של שורות במערך נתונים זה הוא 43050.

  • גודל הורדה : 29.70 MiB

  • גודל מערך נתונים : 74.43 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 43,050
  • מבנה תכונה :
FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'answer_time_ms': Scalar(shape=(), dtype=int64, description=Amount of time spent by each rater on each safety annotation question.),
    'answer_timestamp': Scalar(shape=(), dtype=int64, description=Time when each conversation was rated by each rater.),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
    'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
    'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'safety_gold_reason': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מַחלָקָה צוּרָה Dtype תֵאוּר
FeaturesDict
שאלה 1_הערכת_שיחה_שלמה ClassLabel int64 דירוג לגבי ההבנה של שיחה.
שאלה 2_תוכן_מזיק_תוכן_מסוכן ClassLabel int64
שאלה 2_חריגה_של_סירה_תוכן מזיק ClassLabel int64
Q2_harmful_content_insensitive ClassLabel int64
Q2_harmful_content_medical_legal_financial_or_relationship advice ClassLabel int64
שאלה 2_תוכן_מזיק_מגונה_ומחולל ClassLabel int64
Q2_harmful_content_other ClassLabel int64
Q2_harmful_content_general ClassLabel int64
Q2_harmful_content_personal_information ClassLabel int64
שאלה 2_מוצרים_מזיקים_בפיקוח ClassLabel int64
שאלה 2_תוכן_מזיק_תוכן_מיני_סוגסטי ClassLabel int64
Q3_bias_other ClassLabel int64
Q3_bias_general ClassLabel int64
Q3_bias_targeting_beliefs ClassLabel int64
Q3_bias_targeting_gender_sexualorientation ClassLabel int64
Q3_bias_targeting_herited_attributes ClassLabel int64
Q3_bias_targeting_status ClassLabel int64
Q4_מידע שגוי ClassLabel int64
שאלה 5_שיוך_פוליטי ClassLabel int64
Q6_policy_guidelines_endorsement ClassLabel int64
Q6_policy_guidelines_other ClassLabel int64
שאלה 6_מדיניות_הנחיות_כולל ClassLabel int64
Q6_policy_guidelines_polarizing_topics ClassLabel int64
Q_בכלל ClassLabel int64
time_time_ms סקלר int64 משך הזמן שהשקיע כל מדורג בכל שאלה של הערת בטיחות.
answer_timestamp סקלר int64 הזמן שבו כל שיחה דורגה על ידי כל מדרג.
הֶקשֵׁר טֶקסט חוּט השיחה הופכת לפני התגובה הסופית של הצ'אטבוט.
דרגת_פגיעה ClassLabel int64 דירוג ידנית של חומרת הסיכון הבטיחותי.
Harm_type Sequence (ClassLabel) (אַף לֹא אֶחָד,) int64 נושאי שיחה עם הערות ידניות.
תְעוּדַת זֶהוּת סקלר int64 מזהה מספרי עבור כל שורה, המייצג את כל הדירוגים על ידי מדרג יחיד לשיחה בודדת.
item_id סקלר int64 מזהה מספרי לכל שיחה.
שָׁלָב ClassLabel int64 אחת משלוש תקופות זמן שונות.
מדרג_גיל ClassLabel int64 קבוצת הגיל של המדרג.
מדרג_חינוך ClassLabel int64 השכלתו של המדרג.
rater_gender ClassLabel int64 מינו של המדרג.
rater_id סקלר int64 מזהה מספרי עבור כל מדרג.
rater_race ClassLabel int64 הגזע/אתניות של המדרג.
rater_raw_race טֶקסט חוּט הגזע הגולמי/אתני המדווח על עצמו של המדרג, לפני הפישוט לחמש קטגוריות.
תְגוּבָה טֶקסט חוּט תגובת הצ'אטבוט האחרונה בשיחה.
בטיחות_זהב ClassLabel int64 תווית הבטיחות בתקן הזהב מסופקת על ידי מומחים.
סיבת_זהב_בטיחות טֶקסט חוּט הסיבה (אם ניתנה) לתווית הבטיחות המוזהבת שסופקה על ידי מומחים.

קוביות/990

  • תיאור תצורה : ערכת נתונים 990 מכילה 990 שיחות שדורגו על ידי מאגר מדרגים מגוון של 173 מדרגים ייחודיים. כל שיחה מדורגת עם שלוש קטגוריות בטיחות ברמה העליונה ושאלת הבנת שיחה כוללת אחת. המדרגים גויסו כך שמספר המדרגים לכל שיחה היה מאוזן לפי מגדר (גבר, אישה) ומקום (ארה"ב, הודו). כל מדרג דירג רק מדגם מהשיחה. לכל שיחה יש 60-70 דירוגים ייחודיים. המספר הכולל של שורות במערך נתונים זה הוא 72103.

  • גודל הורדה : 48.06 MiB

  • גודל מערך נתונים : 150.38 MiB

  • שמור אוטומטי במטמון ( תיעוד ): רק כאשר shuffle_files=False (רכבת)

  • פיצולים :

לְפַצֵל דוגמאות
'train' 72,103
  • מבנה תכונה :
FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
    'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
    'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מַחלָקָה צוּרָה Dtype תֵאוּר
FeaturesDict
שאלה 1_הערכת_שיחה_שלמה ClassLabel int64 דירוג לגבי ההבנה של שיחה.
Q2_harmful_content_explainly_sexual ClassLabel int64
שאלה 2_עצה_פיננסית_מזיקה ClassLabel int64
שאלה2_תוכן_מזיק_פגיעה_לאנשים_או_בעלי חיים ClassLabel int64
שאלה 2_תביעות_בריאות_ובטיחות_מזיקות ClassLabel int64
Q2_harmful_content_how_tos_about_harmful_activities ClassLabel int64
שאלה 2_תוכן_מזיק_גסויות_או_לשון הרע ClassLabel int64
Q2_harmful_content_other ClassLabel int64
Q2_harmful_content_general ClassLabel int64
Q2_harmful_content_personal_information ClassLabel int64
שאלה 2_תוכן_מזיק_מקדם_או_מתנגד_שימוש_במוצרים_בפיקוח_מזיקים ClassLabel int64
שאלה 2_תוכן_מזיק_מקדם_או_מתנשא לאלימות ClassLabel int64
Q2_harmful_content_violent_or_gory ClassLabel int64
שאלה 3_3_הכפשות_דתיות_על_גזעיות_או_אחרות_וסטריאוטיפים_המסיתים_או_מקדמים_שנאה על סמך_כל אחת מהתכונות שצוינו לעיל ClassLabel int64
Q3_bias_cing_individuals_or_groups_evil_corrupt or malicious ClassLabel int64
שאלה 3_הטיה_מסיתה_שנאה ClassLabel int64
שאלה 3_עלבונות_הטיות_על_משיכה_רומנטית_ו_או_מינית_רגשית ClassLabel int64
Q3_bias_other ClassLabel int64
Q3_bias_פזית_או_מנטלית_נחיתות ClassLabel int64
Q3_bias_subhuman_comparisons ClassLabel int64
שאלה 3_הטיה_מעלות_או_הכנעה_של_קבוצה ClassLabel int64
Q3_unfair_bias_בכלל ClassLabel int64
שאלה 4_תיאוריות_קונספירציה_שגויות ClassLabel int64
Q4_misinformation_contradicts_expert_consensus ClassLabel int64
Q4_misinformation_false_theories ClassLabel int64
Q4_misinformation_other ClassLabel int64
Q4_misinformation_overall ClassLabel int64
Q4_misinformation_political ClassLabel int64
Q_בכלל ClassLabel int64
הֶקשֵׁר טֶקסט חוּט השיחה הופכת לפני התגובה הסופית של הצ'אטבוט.
דרגת_פגיעה ClassLabel int64 דירוג ידנית של חומרת הסיכון הבטיחותי.
נזק_סוג Sequence (ClassLabel) (אַף לֹא אֶחָד,) int64 נושאי שיחה עם הערות ידניות.
תְעוּדַת זֶהוּת סקלר int64 מזהה מספרי עבור כל שורה, המייצג את כל הדירוגים על ידי מדרג יחיד לשיחה בודדת.
item_id סקלר int64 מזהה מספרי לכל שיחה.
שָׁלָב ClassLabel int64 אחת משלוש תקופות זמן שונות.
מדרג_גיל ClassLabel int64 קבוצת הגיל של המדרג.
מדרג_חינוך ClassLabel int64 השכלתו של המדרג.
rater_gender ClassLabel int64 מינו של המדרג.
rater_id סקלר int64 מזהה מספרי עבור כל מדרג.
rater_locale ClassLabel int64 המקום של המדרג.
rater_race ClassLabel int64 הגזע/אתניות של המדרג.
rater_raw_race טֶקסט חוּט הגזע הגולמי/אתני המדווח על עצמו של המדרג, לפני הפישוט לחמש קטגוריות.
תְגוּבָה טֶקסט חוּט תגובת הצ'אטבוט האחרונה בשיחה.