dadu

  • Keterangan :

Kumpulan data Keanekaragaman dalam Evaluasi AI Percakapan untuk Keselamatan ( DICES ).

Pendekatan pembelajaran mesin sering kali dilatih dan dievaluasi dengan kumpulan data yang memerlukan pemisahan yang jelas antara contoh positif dan negatif. Pendekatan ini terlalu menyederhanakan subjektivitas alami yang terdapat dalam banyak tugas dan item konten. Hal ini juga mengaburkan keragaman yang melekat dalam persepsi dan opini manusia. Seringkali tugas yang berupaya melestarikan keragaman konten dan keragaman pada manusia cukup mahal dan melelahkan. Untuk mengisi kesenjangan ini dan memfasilitasi analisis performa model yang lebih mendalam, kami mengusulkan kumpulan data DICES - kumpulan data unik dengan beragam perspektif tentang keamanan percakapan yang dihasilkan AI. Kami fokus pada tugas evaluasi keselamatan sistem AI percakapan. Kumpulan data DICES berisi informasi demografi terperinci tentang setiap penilai, replikasi peringkat unik yang sangat tinggi per percakapan untuk memastikan signifikansi statistik dari analisis lebih lanjut, dan mengkodekan suara penilai sebagai distribusi di berbagai demografi untuk memungkinkan eksplorasi mendalam atas berbagai strategi agregasi peringkat.

Kumpulan data ini sangat cocok untuk mengamati dan mengukur varians, ambiguitas, dan keragaman dalam konteks keamanan AI percakapan. Kumpulan data tersebut disertai dengan makalah yang menjelaskan serangkaian metrik yang menunjukkan bagaimana keragaman penilai memengaruhi persepsi keselamatan penilai dari wilayah geografis, kelompok etnis, kelompok umur, dan jenis kelamin yang berbeda. Tujuan dari kumpulan data DICES adalah untuk digunakan sebagai tolok ukur bersama untuk evaluasi keselamatan sistem AI percakapan.

PERINGATAN KONTEN : Kumpulan data ini berisi contoh percakapan permusuhan yang mungkin menyinggung.

@article{aroyo2024dices,
  title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
  author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
  journal={Advances in Neural Information Processing Systems},
  volume={36},
  year={2024}
}

dadu/350 (konfigurasi default)

  • Deskripsi konfigurasi : Kumpulan data 350 berisi 350 percakapan yang dinilai oleh kumpulan penilai beragam yang terdiri dari 123 penilai unik. Setiap percakapan dinilai dengan lima kategori keselamatan tingkat atas dan satu pertanyaan pemahaman keseluruhan percakapan. Penilai yang direkrut diseimbangkan berdasarkan gender (pria atau wanita), ras/etnis (Putih, Hitam, Latin, Asia, Multiras) dan masing-masing penilai menilai semua item. Setiap penilai menilai semua percakapan. Setiap percakapan memiliki 123 peringkat unik. Jumlah total baris dalam kumpulan data ini adalah 43050.

  • Ukuran unduhan : 29.70 MiB

  • Ukuran kumpulan data : 74.43 MiB

  • Cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 43.050
  • Struktur fitur :
FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'answer_time_ms': Scalar(shape=(), dtype=int64),
    'answer_timestamp': Scalar(shape=(), dtype=int64),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64),
    'item_id': Scalar(shape=(), dtype=int64),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
    'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'safety_gold_reason': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Tipe D Keterangan
FiturDict
Q1_keseluruhan_percakapan_evaluasi Label Kelas int64 Penilaian tentang pemahaman suatu percakapan.
Q2_konten_berbahaya_konten_berbahaya Label Kelas int64
Q2_konten_berbahaya_penghinaan_kapal Label Kelas int64
Q2_konten_berbahaya_tidak sensitif Label Kelas int64
Q2_konten_berbahaya_medis_legal_keuangan_atau_saran_hubungan Label Kelas int64
Q2_konten_berbahaya_cabul_dan_tidak senonoh Label Kelas int64
Q2_konten_berbahaya_lainnya Label Kelas int64
Q2_konten_berbahaya_secara keseluruhan Label Kelas int64
Q2_konten_berbahaya_informasi_pribadi Label Kelas int64
Q2_konten_berbahaya_barang_yang diatur Label Kelas int64
Q2_konten_berbahaya_konten_menjurus_seksual_ Label Kelas int64
Q3_bias_lainnya Label Kelas int64
Q3_bias_keseluruhan Label Kelas int64
Q3_bias_targeting_beliefs Label Kelas int64
Q3_bias_targeting_gender_seksual_orientasi Label Kelas int64
Q3_bias_targeting_inherited_attributes Label Kelas int64
Q3_bias_targeting_status Label Kelas int64
Q4_misinformasi Label Kelas int64
Q5_afiliasi_politik Label Kelas int64
Q6_panduan_kebijakan_pembuatan_pengesahan Label Kelas int64
Q6_kebijakan_panduan_lainnya Label Kelas int64
Q6_kebijakan_panduan_keseluruhan Label Kelas int64
Q6_panduan_kebijakan_polarisasi_topik Label Kelas int64
Q_secara keseluruhan Label Kelas int64
jawaban_waktu_ms Skalar int64 Jumlah waktu yang dihabiskan oleh setiap penilai pada setiap pertanyaan anotasi keselamatan.
jawaban_cap waktu Skalar int64 Waktu ketika setiap percakapan dinilai oleh masing-masing penilai.
konteks Teks rangkaian Percakapan beralih sebelum respons chatbot terakhir.
derajat_bahaya Label Kelas int64 Peringkat tingkat keparahan risiko keselamatan yang diberi catatan tangan.
tipe_bahaya Urutan (Label Kelas) (Tidak ada,) int64 Topik pembicaraan yang merugikan dengan anotasi tangan.
pengenal Skalar int64 Pengidentifikasi numerik untuk setiap baris, mewakili semua peringkat oleh satu penilai untuk satu percakapan.
item_id Skalar int64 Pengidentifikasi numerik untuk setiap percakapan.
fase Label Kelas int64 Salah satu dari tiga periode waktu yang berbeda.
penilai_usia Label Kelas int64 Kelompok usia penilai.
penilai_pendidikan Label Kelas int64 Pendidikan penilai.
penilai_gender Label Kelas int64 Jenis kelamin penilai.
penilai_id Skalar int64 Pengidentifikasi numerik untuk setiap penilai.
penilai_ras Label Kelas int64 Ras/etnis penilai.
penilai_ras_mentah Teks rangkaian Ras/etnis mentah penilai yang dilaporkan sendiri, sebelum disederhanakan menjadi lima kategori.
tanggapan Teks rangkaian Respons chatbot terakhir dalam percakapan.
keamanan_emas Label Kelas int64 Label keamanan standar emas yang diberikan oleh para ahli.
alasan_keamanan_emas Teks rangkaian Alasan (jika diberikan) label keamanan emas diberikan oleh para ahli.

dadu/990

  • Deskripsi konfigurasi : Kumpulan data 990 berisi 990 percakapan yang dinilai oleh kumpulan penilai beragam yang terdiri dari 173 penilai unik. Setiap percakapan dinilai dengan tiga kategori keamanan tingkat atas dan satu pertanyaan pemahaman percakapan secara keseluruhan. Penilai direkrut sehingga jumlah penilai untuk setiap percakapan seimbang berdasarkan gender (Pria, Wanita) dan lokasi (AS, India). Setiap penilai hanya menilai sampel percakapan. Setiap percakapan memiliki 60-70 peringkat unik. Jumlah total baris dalam kumpulan data ini adalah 72103.

  • Ukuran unduhan : 48.06 MiB

  • Ukuran kumpulan data : 150.38 MiB

  • Cache otomatis ( dokumentasi ): Hanya ketika shuffle_files=False (kereta)

  • Perpecahan :

Membelah Contoh
'train' 72.103
  • Struktur fitur :
FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64),
    'item_id': Scalar(shape=(), dtype=int64),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64),
    'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Tipe D Keterangan
FiturDict
Q1_keseluruhan_percakapan_evaluasi Label Kelas int64 Penilaian tentang pemahaman suatu percakapan.
Q2_konten_berbahaya_eksplisit_seksual Label Kelas int64
Q2_konten_berbahaya_saran_keuangan Label Kelas int64
Q2_konten_berbahaya_mebahayakan_manusia_atau_hewan Label Kelas int64
Q2_klaim_konten_berbahaya_kesehatan_dan_keselamatan Label Kelas int64
Q2_konten_berbahaya_bagaimana_tos_tentang_aktivitas_berbahaya Label Kelas int64
Q2_konten_berbahaya_obscenities_or_profanities Label Kelas int64
Q2_konten_berbahaya_lainnya Label Kelas int64
Q2_konten_berbahaya_secara keseluruhan Label Kelas int64
Q2_konten_berbahaya_informasi_pribadi Label Kelas int64
Q2_konten_berbahaya_promotes_or_condones_use_of_harmful_regulated_goods Label Kelas int64
Q2_konten_berbahaya_mendorong_atau_memungkinkan_kekerasan Label Kelas int64
Q2_konten_berbahaya_kekerasan_atau_berdarah Label Kelas int64
Q3_3_Ras_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above Label Kelas int64
Q3_bias_memanggil_individu_atau_kelompok_jahat_korup_atau_berbahaya Label Kelas int64
Q3_bias_menghasut_kebencian Label Kelas int64
Q3_bias_penghinaan_tentang_emosional_romantis_dan_atau_ketertarikan_seksual Label Kelas int64
Q3_bias_lainnya Label Kelas int64
Q3_bias_fisik_atau_mental_inferior Label Kelas int64
Q3_bias_subhuman_comparisons Label Kelas int64
Q3_bias_superioritas_atau_penaklukan_kelompok_suatu_ Label Kelas int64
Q3_bias_tidak adil_secara keseluruhan Label Kelas int64
Q4_misinformasi_konspirasi_teori Label Kelas int64
Q4_misinformation_contradicts_expert_consensus Label Kelas int64
Q4_misinformasi_teori_salah Label Kelas int64
Q4_misinformasi_lainnya Label Kelas int64
Q4_misinformasi_keseluruhan Label Kelas int64
Q4_misinformasi_politik Label Kelas int64
Q_secara keseluruhan Label Kelas int64
konteks Teks rangkaian Percakapan beralih sebelum respons chatbot terakhir.
derajat_bahaya Label Kelas int64 Peringkat tingkat keparahan risiko keselamatan yang diberi catatan tangan.
tipe_bahaya Urutan (Label Kelas) (Tidak ada,) int64 Topik pembicaraan yang merugikan dengan anotasi tangan.
pengenal Skalar int64 Pengidentifikasi numerik untuk setiap baris, mewakili semua peringkat oleh satu penilai untuk satu percakapan.
item_id Skalar int64 Pengidentifikasi numerik untuk setiap percakapan.
fase Label Kelas int64 Salah satu dari tiga periode waktu yang berbeda.
penilai_usia Label Kelas int64 Kelompok usia penilai.
penilai_pendidikan Label Kelas int64 Pendidikan penilai.
penilai_gender Label Kelas int64 Jenis kelamin penilai.
penilai_id Skalar int64 Pengidentifikasi numerik untuk setiap penilai.
penilai_lokal Label Kelas int64 Lokasi penilai.
penilai_ras Label Kelas int64 Ras/etnis penilai.
penilai_ras_mentah Teks rangkaian Ras/etnis mentah penilai yang dilaporkan sendiri, sebelum disederhanakan menjadi lima kategori.
tanggapan Teks rangkaian Respons chatbot terakhir dalam percakapan.