- Description :
L'ensemble de données sur la diversité dans l'évaluation de la sécurité de l'IA conversationnelle ( DICES )
Les approches d'apprentissage automatique sont souvent formées et évaluées avec des ensembles de données qui nécessitent une séparation claire entre les exemples positifs et négatifs. Cette approche simplifie à l'excès la subjectivité naturelle présente dans de nombreuses tâches et éléments de contenu. Cela obscurcit également la diversité inhérente aux perceptions et opinions humaines. Souvent, les tâches qui tentent de préserver la variance du contenu et la diversité chez les humains sont assez coûteuses et laborieuses. Pour combler cette lacune et faciliter des analyses plus approfondies des performances des modèles, nous proposons l'ensemble de données DICES - un ensemble de données unique avec diverses perspectives sur la sécurité des conversations générées par l'IA. Nous nous concentrons sur la tâche d’évaluation de la sécurité des systèmes d’IA conversationnelle. L'ensemble de données DICES contient des informations démographiques détaillées sur chaque évaluateur, une réplication extrêmement élevée des notes uniques par conversation pour garantir la signification statistique des analyses ultérieures et code les votes des évaluateurs sous forme de distributions sur différentes données démographiques pour permettre des explorations approfondies de différentes stratégies d'agrégation de notes.
Cet ensemble de données est bien adapté pour observer et mesurer la variance, l'ambiguïté et la diversité dans le contexte de la sécurité de l'IA conversationnelle. L'ensemble de données est accompagné d'un article décrivant un ensemble de mesures qui montrent comment la diversité des évaluateurs influence la perception de sécurité des évaluateurs de différentes régions géographiques, groupes ethniques, groupes d'âge et sexes. L’objectif de l’ensemble de données DICES est d’être utilisé comme référence partagée pour l’évaluation de la sécurité des systèmes d’IA conversationnelle.
AVERTISSEMENT DE CONTENU : cet ensemble de données contient des exemples contradictoires de conversations pouvant être offensantes.
Page d'accueil : https://github.com/google-research-datasets/dices-dataset
Code source :
tfds.datasets.dices.Builder
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Clés supervisées (Voir doc
as_supervised
) :None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@article{aroyo2024dices,
title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
journal={Advances in Neural Information Processing Systems},
volume={36},
year={2024}
}
dés/350 (configuration par défaut)
Description de la configuration : L'ensemble de données 350 contient 350 conversations évaluées par un pool d'évaluateurs diversifié de 123 évaluateurs uniques. Chaque conversation est notée selon cinq catégories de sécurité de premier niveau et une question de compréhension globale de la conversation. Les évaluateurs ont été recrutés de manière équilibrée par sexe (homme ou femme), race/origine ethnique (blanc, noir, latin, asiatique, multiracial) et chaque évaluateur a évalué tous les éléments. Chaque évaluateur a évalué toutes les conversations. Chaque conversation comporte 123 évaluations uniques. Le nombre total de lignes dans cet ensemble de données est de 43 050.
Taille du téléchargement :
29.70 MiB
Taille de l'ensemble de données :
74.43 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :
Diviser | Exemples |
---|---|
'train' | 43 050 |
- Structure des fonctionnalités :
FeaturesDict({
'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'answer_time_ms': Scalar(shape=(), dtype=int64, description=Amount of time spent by each rater on each safety annotation question.),
'answer_timestamp': Scalar(shape=(), dtype=int64, description=Time when each conversation was rated by each rater.),
'context': Text(shape=(), dtype=string),
'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
'rater_raw_race': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
'safety_gold_reason': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Type D | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
Q1_whole_conversation_evaluation | Étiquette de classe | int64 | Évaluation de la compréhensibilité d'une conversation. | |
Q2_harmful_content_dangerous_content | Étiquette de classe | int64 | ||
Q2_harmful_content_derogation_of_boat | Étiquette de classe | int64 | ||
T2_harmful_content_insensitive | Étiquette de classe | int64 | ||
Q2_harmful_content_medical_legal_financial_or_relationship_advice | Étiquette de classe | int64 | ||
Q2_harmful_content_obscene_and_profane | Étiquette de classe | int64 | ||
Q2_harmful_content_other | Étiquette de classe | int64 | ||
Q2_harmful_content_overall | Étiquette de classe | int64 | ||
Q2_harmful_content_personal_information | Étiquette de classe | int64 | ||
Q2_harmful_content_regulated_goods | Étiquette de classe | int64 | ||
Q2_harmful_content_sexually_suggestive_content | Étiquette de classe | int64 | ||
Q3_bias_other | Étiquette de classe | int64 | ||
Q3_bias_overall | Étiquette de classe | int64 | ||
Q3_bias_targeting_beliefs | Étiquette de classe | int64 | ||
Q3_bias_targeting_gender_sexual_orientation | Étiquette de classe | int64 | ||
Q3_bias_targeting_inherited_attributes | Étiquette de classe | int64 | ||
Q3_bias_targeting_status | Étiquette de classe | int64 | ||
Q4_désinformation | Étiquette de classe | int64 | ||
Q5_politique_affiliation | Étiquette de classe | int64 | ||
Q6_policy_guidelines_making_endorsement | Étiquette de classe | int64 | ||
Q6_policy_guidelines_other | Étiquette de classe | int64 | ||
Q6_policy_guidelines_overall | Étiquette de classe | int64 | ||
Q6_policy_guidelines_polarizing_topics | Étiquette de classe | int64 | ||
Q_global | Étiquette de classe | int64 | ||
réponse_time_ms | Scalaire | int64 | Temps passé par chaque évaluateur sur chaque question d'annotation de sécurité. | |
réponse_horodatage | Scalaire | int64 | Heure à laquelle chaque conversation a été évaluée par chaque évaluateur. | |
contexte | Texte | chaîne | La conversation tourne avant la réponse finale du chatbot. | |
degré_de_préjudice | Étiquette de classe | int64 | Évaluation annotée à la main de la gravité du risque de sécurité. | |
type_harcèlement | Séquence (ClassLabel) | (Aucun,) | int64 | Sujet(s) de conversation préjudiciable annoté à la main. |
identifiant | Scalaire | int64 | Identificateur numérique pour chaque ligne, représentant toutes les évaluations d'un seul évaluateur pour une seule conversation. | |
article_id | Scalaire | int64 | Identifiant numérique pour chaque conversation. | |
phase | Étiquette de classe | int64 | Une des trois périodes distinctes. | |
évaluateur_age | Étiquette de classe | int64 | La tranche d’âge de l’évaluateur. | |
évaluateur_éducation | Étiquette de classe | int64 | La formation de l'évaluateur. | |
évaluateur_genre | Étiquette de classe | int64 | Le sexe de l'évaluateur. | |
évaluateur_id | Scalaire | int64 | Identifiant numérique pour chaque évaluateur. | |
évaluateur_race | Étiquette de classe | int64 | La race/origine ethnique de l'évaluateur. | |
rater_raw_race | Texte | chaîne | La race/origine ethnique brute autodéclarée par l'évaluateur, avant simplification en cinq catégories. | |
réponse | Texte | chaîne | La réponse finale du chatbot dans la conversation. | |
sécurité_or | Étiquette de classe | int64 | Le label de sécurité de référence fourni par des experts. | |
sécurité_gold_reason | Texte | chaîne | La ou les raisons (si elles sont données) du label de sécurité or fournies par des experts. |
- Exemples ( tfds.as_dataframe ) :
dés/990
Description de la configuration : L'ensemble de données 990 contient 990 conversations évaluées par un pool d'évaluateurs diversifié de 173 évaluateurs uniques. Chaque conversation est évaluée selon trois catégories de sécurité de premier niveau et une question globale de compréhension de la conversation. Les évaluateurs ont été recrutés de manière à ce que le nombre d'évaluateurs pour chaque conversation soit équilibré par sexe (homme, femme) et lieu (États-Unis, Inde). Chaque évaluateur n’a évalué qu’un échantillon de la conversation. Chaque conversation comporte 60 à 70 évaluations uniques. Le nombre total de lignes dans cet ensemble de données est de 72 103.
Taille du téléchargement :
48.06 MiB
Taille de l'ensemble de données :
150.38 MiB
Mise en cache automatique ( documentation ) : uniquement lorsque
shuffle_files=False
(train)Divisions :
Diviser | Exemples |
---|---|
'train' | 72 103 |
- Structure des fonctionnalités :
FeaturesDict({
'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'context': Text(shape=(), dtype=string),
'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
'rater_raw_race': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Type D | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
Q1_whole_conversation_evaluation | Étiquette de classe | int64 | Évaluation de la compréhensibilité d'une conversation. | |
Q2_harmful_content_explicitly_sexual | Étiquette de classe | int64 | ||
T2_harmful_content_financial_advice | Étiquette de classe | int64 | ||
Q2_harmful_content_harm_to_people_or_animals | Étiquette de classe | int64 | ||
Q2_harmful_content_health_and_safety_claims | Étiquette de classe | int64 | ||
Q2_harmful_content_how_tos_about_harmful_activities | Étiquette de classe | int64 | ||
Q2_harmful_content_obscenities_or_profanities | Étiquette de classe | int64 | ||
Q2_harmful_content_other | Étiquette de classe | int64 | ||
Q2_harmful_content_overall | Étiquette de classe | int64 | ||
Q2_harmful_content_personal_information | Étiquette de classe | int64 | ||
Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods | Étiquette de classe | int64 | ||
Q2_harmful_content_promotes_or_condones_violence | Étiquette de classe | int64 | ||
Q2_harmful_content_violent_or_gory | Étiquette de classe | int64 | ||
Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above | Étiquette de classe | int64 | ||
Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious | Étiquette de classe | int64 | ||
Q3_bias_incites_hatred | Étiquette de classe | int64 | ||
Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction | Étiquette de classe | int64 | ||
Q3_bias_other | Étiquette de classe | int64 | ||
Q3_bias_physically_or_mentally_inferior | Étiquette de classe | int64 | ||
Q3_bias_subhuman_comparisons | Étiquette de classe | int64 | ||
Q3_bias_superiority_or_subjugation_of_a_group | Étiquette de classe | int64 | ||
T3_unfair_bias_overall | Étiquette de classe | int64 | ||
T4_misinformation_conspiracy_theories | Étiquette de classe | int64 | ||
T4_misinformation_contradicts_expert_consensus | Étiquette de classe | int64 | ||
Q4_misinformation_false_theories | Étiquette de classe | int64 | ||
T4_misinformation_other | Étiquette de classe | int64 | ||
T4_misinformation_overall | Étiquette de classe | int64 | ||
T4_misinformation_politique | Étiquette de classe | int64 | ||
Q_global | Étiquette de classe | int64 | ||
contexte | Texte | chaîne | La conversation tourne avant la réponse finale du chatbot. | |
degré_de_préjudice | Étiquette de classe | int64 | Évaluation annotée à la main de la gravité du risque de sécurité. | |
type_harcèlement | Séquence (ClassLabel) | (Aucun,) | int64 | Sujet(s) de conversation préjudiciable annoté à la main. |
identifiant | Scalaire | int64 | Identificateur numérique pour chaque ligne, représentant toutes les évaluations d'un seul évaluateur pour une seule conversation. | |
article_id | Scalaire | int64 | Identifiant numérique pour chaque conversation. | |
phase | Étiquette de classe | int64 | Une des trois périodes distinctes. | |
évaluateur_age | Étiquette de classe | int64 | La tranche d’âge de l’évaluateur. | |
évaluateur_éducation | Étiquette de classe | int64 | La formation de l'évaluateur. | |
évaluateur_genre | Étiquette de classe | int64 | Le sexe de l'évaluateur. | |
évaluateur_id | Scalaire | int64 | Identifiant numérique pour chaque évaluateur. | |
évaluateur_locale | Étiquette de classe | int64 | Paramètres régionaux de l'évaluateur. | |
évaluateur_race | Étiquette de classe | int64 | La race/origine ethnique de l'évaluateur. | |
rater_raw_race | Texte | chaîne | La race/origine ethnique brute autodéclarée par l'évaluateur, avant simplification en cinq catégories. | |
réponse | Texte | chaîne | La réponse finale du chatbot dans la conversation. |
- Exemples ( tfds.as_dataframe ) :