dadu

Keterangan :

Kumpulan data Keanekaragaman dalam Evaluasi AI Percakapan untuk Keselamatan ( DICES ).

Pendekatan pembelajaran mesin sering kali dilatih dan dievaluasi dengan kumpulan data yang memerlukan pemisahan yang jelas antara contoh positif dan negatif. Pendekatan ini terlalu menyederhanakan subjektivitas alami yang terdapat dalam banyak tugas dan item konten. Hal ini juga mengaburkan keragaman yang melekat dalam persepsi dan opini manusia. Seringkali tugas yang berupaya melestarikan keragaman konten dan keragaman pada manusia cukup mahal dan melelahkan. Untuk mengisi kesenjangan ini dan memfasilitasi analisis performa model yang lebih mendalam, kami mengusulkan kumpulan data DICES - kumpulan data unik dengan beragam perspektif tentang keamanan percakapan yang dihasilkan AI. Kami fokus pada tugas evaluasi keselamatan sistem AI percakapan. Kumpulan data DICES berisi informasi demografi terperinci tentang setiap penilai, replikasi peringkat unik yang sangat tinggi per percakapan untuk memastikan signifikansi statistik dari analisis lebih lanjut, dan mengkodekan suara penilai sebagai distribusi di berbagai demografi untuk memungkinkan eksplorasi mendalam atas berbagai strategi agregasi peringkat.

Kumpulan data ini sangat cocok untuk mengamati dan mengukur varians, ambiguitas, dan keragaman dalam konteks keamanan AI percakapan. Kumpulan data tersebut disertai dengan makalah yang menjelaskan serangkaian metrik yang menunjukkan bagaimana keragaman penilai memengaruhi persepsi keselamatan penilai dari wilayah geografis, kelompok etnis, kelompok umur, dan jenis kelamin yang berbeda. Tujuan dari kumpulan data DICES adalah untuk digunakan sebagai tolok ukur bersama untuk evaluasi keselamatan sistem AI percakapan.

PERINGATAN KONTEN : Kumpulan data ini berisi contoh percakapan permusuhan yang mungkin menyinggung.

Beranda : https://github.com/google-research-datasets/dices-dataset
Kode sumber : tfds.datasets.dices.Builder
Versi :
- 1.0.0 (default): Rilis awal.
Kunci yang diawasi (Lihat dokumen as_supervised ): None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :

@article{aroyo2024dices,
  title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
  author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
  journal={Advances in Neural Information Processing Systems},
  volume={36},
  year={2024}
}

dadu/350 (konfigurasi default)

Deskripsi konfigurasi : Kumpulan data 350 berisi 350 percakapan yang dinilai oleh kumpulan penilai beragam yang terdiri dari 123 penilai unik. Setiap percakapan dinilai dengan lima kategori keselamatan tingkat atas dan satu pertanyaan pemahaman keseluruhan percakapan. Penilai yang direkrut diseimbangkan berdasarkan gender (pria atau wanita), ras/etnis (Putih, Hitam, Latin, Asia, Multiras) dan masing-masing penilai menilai semua item. Setiap penilai menilai semua percakapan. Setiap percakapan memiliki 123 peringkat unik. Jumlah total baris dalam kumpulan data ini adalah 43050.
Ukuran unduhan : 29.70 MiB
Ukuran kumpulan data : 74.43 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'train'`	43.050

Struktur fitur :

FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'answer_time_ms': Scalar(shape=(), dtype=int64),
    'answer_timestamp': Scalar(shape=(), dtype=int64),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64),
    'item_id': Scalar(shape=(), dtype=int64),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
    'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'safety_gold_reason': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D	Keterangan
	FiturDict
Q1_keseluruhan_percakapan_evaluasi	Label Kelas		int64	Penilaian tentang pemahaman suatu percakapan.
Q2_konten_berbahaya_konten_berbahaya	Label Kelas		int64
Q2_konten_berbahaya_penghinaan_kapal	Label Kelas		int64
Q2_konten_berbahaya_tidak sensitif	Label Kelas		int64
Q2_konten_berbahaya_medis_legal_keuangan_atau_saran_hubungan	Label Kelas		int64
Q2_konten_berbahaya_cabul_dan_tidak senonoh	Label Kelas		int64
Q2_konten_berbahaya_lainnya	Label Kelas		int64
Q2_konten_berbahaya_secara keseluruhan	Label Kelas		int64
Q2_konten_berbahaya_informasi_pribadi	Label Kelas		int64
Q2_konten_berbahaya_barang_yang diatur	Label Kelas		int64
Q2_konten_berbahaya_konten_menjurus_seksual_	Label Kelas		int64
Q3_bias_lainnya	Label Kelas		int64
Q3_bias_keseluruhan	Label Kelas		int64
Q3_bias_targeting_beliefs	Label Kelas		int64
Q3_bias_targeting_gender_seksual_orientasi	Label Kelas		int64
Q3_bias_targeting_inherited_attributes	Label Kelas		int64
Q3_bias_targeting_status	Label Kelas		int64
Q4_misinformasi	Label Kelas		int64
Q5_afiliasi_politik	Label Kelas		int64
Q6_panduan_kebijakan_pembuatan_pengesahan	Label Kelas		int64
Q6_kebijakan_panduan_lainnya	Label Kelas		int64
Q6_kebijakan_panduan_keseluruhan	Label Kelas		int64
Q6_panduan_kebijakan_polarisasi_topik	Label Kelas		int64
Q_secara keseluruhan	Label Kelas		int64
jawaban_waktu_ms	Skalar		int64	Jumlah waktu yang dihabiskan oleh setiap penilai pada setiap pertanyaan anotasi keselamatan.
jawaban_cap waktu	Skalar		int64	Waktu ketika setiap percakapan dinilai oleh masing-masing penilai.
konteks	Teks		rangkaian	Percakapan beralih sebelum respons chatbot terakhir.
derajat_bahaya	Label Kelas		int64	Peringkat tingkat keparahan risiko keselamatan yang diberi catatan tangan.
tipe_bahaya	Urutan (Label Kelas)	(Tidak ada,)	int64	Topik pembicaraan yang merugikan dengan anotasi tangan.
pengenal	Skalar		int64	Pengidentifikasi numerik untuk setiap baris, mewakili semua peringkat oleh satu penilai untuk satu percakapan.
item_id	Skalar		int64	Pengidentifikasi numerik untuk setiap percakapan.
fase	Label Kelas		int64	Salah satu dari tiga periode waktu yang berbeda.
penilai_usia	Label Kelas		int64	Kelompok usia penilai.
penilai_pendidikan	Label Kelas		int64	Pendidikan penilai.
penilai_gender	Label Kelas		int64	Jenis kelamin penilai.
penilai_id	Skalar		int64	Pengidentifikasi numerik untuk setiap penilai.
penilai_ras	Label Kelas		int64	Ras/etnis penilai.
penilai_ras_mentah	Teks		rangkaian	Ras/etnis mentah penilai yang dilaporkan sendiri, sebelum disederhanakan menjadi lima kategori.
tanggapan	Teks		rangkaian	Respons chatbot terakhir dalam percakapan.
keamanan_emas	Label Kelas		int64	Label keamanan standar emas yang diberikan oleh para ahli.
alasan_keamanan_emas	Teks		rangkaian	Alasan (jika diberikan) label keamanan emas diberikan oleh para ahli.

Contoh ( tfds.as_dataframe ):

dadu/990

Deskripsi konfigurasi : Kumpulan data 990 berisi 990 percakapan yang dinilai oleh kumpulan penilai beragam yang terdiri dari 173 penilai unik. Setiap percakapan dinilai dengan tiga kategori keamanan tingkat atas dan satu pertanyaan pemahaman percakapan secara keseluruhan. Penilai direkrut sehingga jumlah penilai untuk setiap percakapan seimbang berdasarkan gender (Pria, Wanita) dan lokasi (AS, India). Setiap penilai hanya menilai sampel percakapan. Setiap percakapan memiliki 60-70 peringkat unik. Jumlah total baris dalam kumpulan data ini adalah 72103.
Ukuran unduhan : 48.06 MiB
Ukuran kumpulan data : 150.38 MiB
Cache otomatis ( dokumentasi ): Hanya ketika shuffle_files=False (kereta)
Perpecahan :

Membelah	Contoh
`'train'`	72.103

Struktur fitur :

FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64),
    'item_id': Scalar(shape=(), dtype=int64),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64),
    'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Tipe D	Keterangan
	FiturDict
Q1_keseluruhan_percakapan_evaluasi	Label Kelas		int64	Penilaian tentang pemahaman suatu percakapan.
Q2_konten_berbahaya_eksplisit_seksual	Label Kelas		int64
Q2_konten_berbahaya_saran_keuangan	Label Kelas		int64
Q2_konten_berbahaya_mebahayakan_manusia_atau_hewan	Label Kelas		int64
Q2_klaim_konten_berbahaya_kesehatan_dan_keselamatan	Label Kelas		int64
Q2_konten_berbahaya_bagaimana_tos_tentang_aktivitas_berbahaya	Label Kelas		int64
Q2_konten_berbahaya_obscenities_or_profanities	Label Kelas		int64
Q2_konten_berbahaya_lainnya	Label Kelas		int64
Q2_konten_berbahaya_secara keseluruhan	Label Kelas		int64
Q2_konten_berbahaya_informasi_pribadi	Label Kelas		int64
Q2_konten_berbahaya_promotes_or_condones_use_of_harmful_regulated_goods	Label Kelas		int64
Q2_konten_berbahaya_mendorong_atau_memungkinkan_kekerasan	Label Kelas		int64
Q2_konten_berbahaya_kekerasan_atau_berdarah	Label Kelas		int64
Q3_3_Ras_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above	Label Kelas		int64
Q3_bias_memanggil_individu_atau_kelompok_jahat_korup_atau_berbahaya	Label Kelas		int64
Q3_bias_menghasut_kebencian	Label Kelas		int64
Q3_bias_penghinaan_tentang_emosional_romantis_dan_atau_ketertarikan_seksual	Label Kelas		int64
Q3_bias_lainnya	Label Kelas		int64
Q3_bias_fisik_atau_mental_inferior	Label Kelas		int64
Q3_bias_subhuman_comparisons	Label Kelas		int64
Q3_bias_superioritas_atau_penaklukan_kelompok_suatu_	Label Kelas		int64
Q3_bias_tidak adil_secara keseluruhan	Label Kelas		int64
Q4_misinformasi_konspirasi_teori	Label Kelas		int64
Q4_misinformation_contradicts_expert_consensus	Label Kelas		int64
Q4_misinformasi_teori_salah	Label Kelas		int64
Q4_misinformasi_lainnya	Label Kelas		int64
Q4_misinformasi_keseluruhan	Label Kelas		int64
Q4_misinformasi_politik	Label Kelas		int64
Q_secara keseluruhan	Label Kelas		int64
konteks	Teks		rangkaian	Percakapan beralih sebelum respons chatbot terakhir.
derajat_bahaya	Label Kelas		int64	Peringkat tingkat keparahan risiko keselamatan yang diberi catatan tangan.
tipe_bahaya	Urutan (Label Kelas)	(Tidak ada,)	int64	Topik pembicaraan yang merugikan dengan anotasi tangan.
pengenal	Skalar		int64	Pengidentifikasi numerik untuk setiap baris, mewakili semua peringkat oleh satu penilai untuk satu percakapan.
item_id	Skalar		int64	Pengidentifikasi numerik untuk setiap percakapan.
fase	Label Kelas		int64	Salah satu dari tiga periode waktu yang berbeda.
penilai_usia	Label Kelas		int64	Kelompok usia penilai.
penilai_pendidikan	Label Kelas		int64	Pendidikan penilai.
penilai_gender	Label Kelas		int64	Jenis kelamin penilai.
penilai_id	Skalar		int64	Pengidentifikasi numerik untuk setiap penilai.
penilai_lokal	Label Kelas		int64	Lokasi penilai.
penilai_ras	Label Kelas		int64	Ras/etnis penilai.
penilai_ras_mentah	Teks		rangkaian	Ras/etnis mentah penilai yang dilaporkan sendiri, sebelum disederhanakan menjadi lima kategori.
tanggapan	Teks		rangkaian	Respons chatbot terakhir dalam percakapan.

Contoh ( tfds.as_dataframe ):