dadi

  • Descrizione :

Il set di dati Diversity in Conversational AI Evaluation for Safety ( DICES ).

Gli approcci al machine learning vengono spesso addestrati e valutati con set di dati che richiedono una chiara separazione tra esempi positivi e negativi. Questo approccio semplifica eccessivamente la naturale soggettività presente in molti compiti e contenuti. Inoltre oscura la diversità intrinseca nelle percezioni e nelle opinioni umane. Spesso i compiti che tentano di preservare la varianza dei contenuti e la diversità negli esseri umani sono piuttosto costosi e laboriosi. Per colmare questa lacuna e facilitare analisi più approfondite delle prestazioni del modello, proponiamo il set di dati DICES, un set di dati unico con diverse prospettive sulla sicurezza delle conversazioni generate dall'intelligenza artificiale. Ci concentriamo sul compito di valutazione della sicurezza dei sistemi di intelligenza artificiale conversazionale. Il set di dati DICES contiene informazioni demografiche dettagliate su ciascun valutatore, una replica estremamente elevata di valutazioni uniche per conversazione per garantire la significatività statistica di ulteriori analisi e codifica i voti dei valutatori come distribuzioni tra diversi dati demografici per consentire esplorazioni approfondite di diverse strategie di aggregazione delle valutazioni.

Questo set di dati è particolarmente adatto per osservare e misurare la varianza, l'ambiguità e la diversità nel contesto della sicurezza dell'IA conversazionale. Il set di dati è accompagnato da un documento che descrive una serie di parametri che mostrano come la diversità dei valutatori influenza la percezione di sicurezza dei valutatori provenienti da diverse regioni geografiche, gruppi etnici, fasce di età e generi. L’obiettivo del set di dati DICES è quello di essere utilizzato come punto di riferimento condiviso per la valutazione della sicurezza dei sistemi di intelligenza artificiale conversazionale.

AVVISO SUL CONTENUTO : questo set di dati contiene esempi contraddittori di conversazioni che potrebbero essere offensive.

@article{aroyo2024dices,
  title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
  author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
  journal={Advances in Neural Information Processing Systems},
  volume={36},
  year={2024}
}

dices/350 (configurazione predefinita)

  • Descrizione della configurazione : il set di dati 350 contiene 350 conversazioni valutate da un pool di valutatori diversificato di 123 valutatori unici. Ogni conversazione viene valutata con cinque categorie di sicurezza di primo livello e una domanda di comprensione generale della conversazione. I valutatori reclutati erano bilanciati per genere (uomo o donna), razza/etnia (bianco, nero, latino, asiatico, multirazziale) e ciascun valutatore ha valutato tutti gli elementi. Ciascun valutatore ha valutato tutte le conversazioni. Ogni conversazione ha 123 valutazioni uniche. Il numero totale di righe in questo set di dati è 43050.

  • Dimensione download : 29.70 MiB

  • Dimensione del set di dati : 74.43 MiB

  • Memorizzazione nella cache automatica ( documentazione ): sì

  • Divide :

Diviso Esempi
'train' 43.050
  • Struttura delle caratteristiche :
FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'answer_time_ms': Scalar(shape=(), dtype=int64, description=Amount of time spent by each rater on each safety annotation question.),
    'answer_timestamp': Scalar(shape=(), dtype=int64, description=Time when each conversation was rated by each rater.),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
    'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
    'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'safety_gold_reason': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
Q1_valutazione_intera_conversazione ClassLabel int64 Valutazione sulla comprensibilità di una conversazione.
Q2_contenuti_dannosi_contenuti_pericolosi ClassLabel int64
Q2_contenuto_dannoso_derogazione_della_barca ClassLabel int64
Q2_dannoso_contenuto_insensibile ClassLabel int64
Q2_contenuti_dannosi_consigli_medico_legali_finanziari_o_relazionali ClassLabel int64
Q2_contenuto_dannoso_osceno_e_profano ClassLabel int64
Q2_contenuti_dannosi_altro ClassLabel int64
Q2_contenuti_dannosi_nel complesso ClassLabel int64
Q2_contenuti_dannosi_informazioni_personali ClassLabel int64
Q2_contenuto_dannoso_merci_regolamentate ClassLabel int64
Q2_contenuti_dannosi_contenuti_sessualmente_suggestivi ClassLabel int64
Q3_bias_altro ClassLabel int64
Q3_bias_complessivo ClassLabel int64
Q3_bias_targeting_beliefs ClassLabel int64
Q3_bias_targeting_gender_sessuale_orientamento ClassLabel int64
Q3_bias_targeting_inherited_attributes ClassLabel int64
Q3_bias_targeting_status ClassLabel int64
Q4_disinformazione ClassLabel int64
Q5_affiliazione_politica ClassLabel int64
Q6_policy_guidelines_making_endorsement ClassLabel int64
Q6_policy_guidelines_other ClassLabel int64
Q6_policy_guidelines_overall ClassLabel int64
Q6_policy_guidelines_polarizing_topics ClassLabel int64
Q_nel complesso ClassLabel int64
risposta_ora_ms Scalare int64 Quantità di tempo trascorso da ciascun valutatore su ciascuna domanda di annotazione di sicurezza.
risposta_timestamp Scalare int64 Ora in cui ogni conversazione è stata valutata da ciascun valutatore.
contesto Testo corda La conversazione si svolge prima della risposta finale del chatbot.
grado_di_danno ClassLabel int64 Valutazione annotata manualmente della gravità del rischio per la sicurezza.
tipo_danno Sequenza(ClassLabel) (Nessuno,) int64 Argomenti di conversazione sui danni annotati manualmente.
id Scalare int64 Identificatore numerico per ogni riga, che rappresenta tutte le valutazioni di un singolo valutatore per una singola conversazione.
articolo_id Scalare int64 Identificatore numerico per ogni conversazione.
fase ClassLabel int64 Uno dei tre periodi di tempo distinti.
rater_age ClassLabel int64 La fascia di età del valutatore.
rater_education ClassLabel int64 L'educazione del valutatore.
rater_gender ClassLabel int64 Il genere del valutatore.
rater_id Scalare int64 Identificatore numerico per ciascun valutatore.
rater_race ClassLabel int64 La razza/etnia del valutatore.
rater_raw_race Testo corda La razza/etnia grezza auto-riferita del valutatore, prima della semplificazione in cinque categorie.
risposta Testo corda La risposta finale del chatbot nella conversazione.
safety_gold ClassLabel int64 L'etichetta di sicurezza standard di riferimento fornita dagli esperti.
safety_gold_reason Testo corda I motivi (se forniti) dell'etichetta di sicurezza Gold forniti da esperti.

dadi/990

  • Descrizione della configurazione : il set di dati 990 contiene 990 conversazioni valutate da un pool di valutatori diversificato di 173 valutatori unici. Ogni conversazione viene valutata con tre categorie di sicurezza di primo livello e una domanda generale sulla comprensione della conversazione. I valutatori sono stati reclutati in modo che il numero di valutatori per ciascuna conversazione fosse bilanciato in base al genere (uomo, donna) e al luogo (Stati Uniti, India). Ciascun valutatore ha valutato solo un campione della conversazione. Ogni conversazione ha 60-70 valutazioni uniche. Il numero totale di righe in questo set di dati è 72103.

  • Dimensione download : 48.06 MiB

  • Dimensione del set di dati : 150.38 MiB

  • Memorizzato automaticamente nella cache ( documentazione ): solo quando shuffle_files=False (train)

  • Divide :

Diviso Esempi
'train' 72.103
  • Struttura delle caratteristiche :
FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
    'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
    'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
Q1_valutazione_intera_conversazione ClassLabel int64 Valutazione sulla comprensibilità di una conversazione.
Q2_contenuti_dannosi_esplicitamente_sessuali ClassLabel int64
Q2_contenuti_dannosi_consigli_finanziari ClassLabel int64
Q2_contenuti_dannosi_danno_a_persone_o_animali ClassLabel int64
Q2_harmful_content_health_and_safety_claims ClassLabel int64
Q2_harmful_content_how_tos_about_harmful_activities ClassLabel int64
Q2_contenuti_dannosi_oscenità_o_profanità ClassLabel int64
Q2_contenuti_dannosi_altro ClassLabel int64
Q2_contenuti_dannosi_nel complesso ClassLabel int64
Q2_contenuti_dannosi_informazioni_personali ClassLabel int64
Q2_contenuto_dannoso_promuove_o_condona_l'uso_di_beni_nocivi_regolamentati ClassLabel int64
Q2_harmful_content_promuove_o_condona_la_violenza ClassLabel int64
Q2_harmful_content_violent_or_gory ClassLabel int64
Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above ClassLabel int64
Q3_chiamate_pregiudiziali_individui_o_gruppi_malvagi_corrotti_o_dannosi ClassLabel int64
Q3_pregiudizi_incita_all'odio ClassLabel int64
Q3_pregiudizi_insulti_su_attrazione_emotiva_romantica_e_o_sessuale ClassLabel int64
Q3_bias_altro ClassLabel int64
Q3_pregiudizi_fisicamente_o_mentalmente_inferiori ClassLabel int64
Q3_pregiudizi_confronti_subumani ClassLabel int64
Q3_pregiudizi_superiorità_o_sottomissione_di_un_gruppo ClassLabel int64
Q3_pregiudizi_ingiusti_nel complesso ClassLabel int64
Q4_disinformazione_teorie_del complotto ClassLabel int64
Q4_disinformazione_contraddittori_consenso_esperto ClassLabel int64
Q4_disinformazione_false_teorie ClassLabel int64
Q4_disinformazione_altro ClassLabel int64
Q4_disinformazione_complessiva ClassLabel int64
Q4_disinformazione_politica ClassLabel int64
Q_nel complesso ClassLabel int64
contesto Testo corda La conversazione si svolge prima della risposta finale del chatbot.
grado_di_danno ClassLabel int64 Valutazione annotata manualmente della gravità del rischio per la sicurezza.
tipo_danno Sequenza(ClassLabel) (Nessuno,) int64 Argomenti di conversazione sui danni annotati manualmente.
id Scalare int64 Identificatore numerico per ogni riga, che rappresenta tutte le valutazioni di un singolo valutatore per una singola conversazione.
articolo_id Scalare int64 Identificatore numerico per ogni conversazione.
fase ClassLabel int64 Uno dei tre periodi di tempo distinti.
rater_age ClassLabel int64 La fascia di età del valutatore.
rater_education ClassLabel int64 L'educazione del valutatore.
rater_gender ClassLabel int64 Il genere del valutatore.
rater_id Scalare int64 Identificatore numerico per ciascun valutatore.
rater_locale ClassLabel int64 La località del valutatore.
rater_race ClassLabel int64 La razza/etnia del valutatore.
rater_raw_race Testo corda La razza/etnia grezza auto-riferita del valutatore, prima della semplificazione in cinque categorie.
risposta Testo corda La risposta finale del chatbot nella conversazione.