xúc xắc

  • Sự miêu tả :

Bộ dữ liệu về tính đa dạng trong đánh giá an toàn của AI trong đàm thoại ( DICES )

Các phương pháp học máy thường được đào tạo và đánh giá bằng các bộ dữ liệu yêu cầu sự tách biệt rõ ràng giữa các ví dụ tích cực và tiêu cực. Cách tiếp cận này đơn giản hóa quá mức tính chủ quan tự nhiên hiện diện trong nhiều nhiệm vụ và mục nội dung. Nó cũng che khuất sự đa dạng vốn có trong nhận thức và quan điểm của con người. Thông thường, các nhiệm vụ cố gắng duy trì sự khác biệt về nội dung và tính đa dạng ở con người khá tốn kém và tốn nhiều công sức. Để lấp đầy khoảng trống này và tạo điều kiện cho các phân tích hiệu suất mô hình chuyên sâu hơn, chúng tôi đề xuất bộ dữ liệu DICES - một bộ dữ liệu độc đáo với các quan điểm đa dạng về tính an toàn của các cuộc hội thoại do AI tạo ra. Chúng tôi tập trung vào nhiệm vụ đánh giá độ an toàn của hệ thống AI đàm thoại. Bộ dữ liệu DICES chứa thông tin nhân khẩu học chi tiết về từng người xếp hạng, có khả năng sao chép cực kỳ cao các xếp hạng duy nhất cho mỗi cuộc hội thoại để đảm bảo ý nghĩa thống kê của các phân tích sâu hơn và mã hóa phiếu bầu của người xếp hạng dưới dạng phân phối trên các nhân khẩu học khác nhau để cho phép khám phá sâu về các chiến lược tổng hợp xếp hạng khác nhau.

Bộ dữ liệu này rất phù hợp để quan sát và đo lường sự khác biệt, sự mơ hồ và đa dạng trong bối cảnh an toàn của AI đàm thoại. Bộ dữ liệu đi kèm với một bài viết mô tả một bộ số liệu cho thấy mức độ ảnh hưởng của sự đa dạng của người đánh giá đến nhận thức về an toàn của những người đánh giá từ các khu vực địa lý, nhóm dân tộc, nhóm tuổi và giới tính khác nhau. Mục tiêu của bộ dữ liệu DICES là được sử dụng làm chuẩn mực chung để đánh giá mức độ an toàn của các hệ thống AI đàm thoại.

CẢNH BÁO NỘI DUNG : Tập dữ liệu này chứa các ví dụ đối nghịch về các cuộc hội thoại có thể gây khó chịu.

@article{aroyo2024dices,
  title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
  author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
  journal={Advances in Neural Information Processing Systems},
  volume={36},
  year={2024}
}

xúc xắc/350 (cấu hình mặc định)

  • Mô tả cấu hình : Bộ dữ liệu 350 chứa 350 cuộc hội thoại được xếp hạng bởi nhóm người xếp hạng đa dạng gồm 123 người xếp hạng duy nhất. Mỗi cuộc trò chuyện được đánh giá theo năm hạng mục an toàn cấp cao nhất và một câu hỏi hiểu tổng thể về cuộc trò chuyện. Những người đánh giá được tuyển dụng được cân bằng theo giới tính (nam hay nữ), chủng tộc/dân tộc (Da trắng, Da đen, người Latinh, Châu Á, Đa chủng tộc) và mỗi người đánh giá đều xếp hạng tất cả các mục. Mỗi người xếp hạng đánh giá tất cả các cuộc hội thoại. Mỗi cuộc trò chuyện có 123 xếp hạng duy nhất. Tổng số hàng trong tập dữ liệu này là 43050.

  • Kích thước tải xuống : 29.70 MiB

  • Kích thước tập dữ liệu : 74.43 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra Ví dụ
'train' 43.050
  • Cấu trúc tính năng :
FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'answer_time_ms': Scalar(shape=(), dtype=int64),
    'answer_timestamp': Scalar(shape=(), dtype=int64),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64),
    'item_id': Scalar(shape=(), dtype=int64),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
    'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'safety_gold_reason': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng loại D Sự miêu tả
Tính năngDict
Q1_whole_conversation_evaluation Nhãn lớp int64 Đánh giá về mức độ dễ hiểu của một cuộc trò chuyện.
Q2_harmful_content_dangeous_content Nhãn lớp int64
Q2_harmful_content_derogation_of_boat Nhãn lớp int64
Q2_harmful_content_insensitive Nhãn lớp int64
Q2_harmful_content_Medical_legal_financial_or_relationship_advice Nhãn lớp int64
Q2_harmful_content_obscene_and_profane Nhãn lớp int64
Q2_harmful_content_other Nhãn lớp int64
Q2_harmful_content_tổng thể Nhãn lớp int64
Q2_harmful_content_personal_information Nhãn lớp int64
Q2_harmful_content_regulation_goods Nhãn lớp int64
Q2_harmful_content_sexy_suggestive_content Nhãn lớp int64
Q3_bias_other Nhãn lớp int64
Q3_bias_tổng thể Nhãn lớp int64
Q3_bias_targeting_beliefs Nhãn lớp int64
Q3_bias_targeting_giới tính_định hướng Nhãn lớp int64
Q3_bias_targeting_inherited_attributes Nhãn lớp int64
Q3_bias_targeting_status Nhãn lớp int64
Q4_thông tin sai lệch Nhãn lớp int64
Q5_chính trị_liên kết Nhãn lớp int64
Q6_policy_guidelines_making_endorsement Nhãn lớp int64
Q6_policy_guidelines_other Nhãn lớp int64
Q6_policy_guidelines_overall Nhãn lớp int64
Q6_policy_guidelines_polizing_topics Nhãn lớp int64
Q_tổng thể Nhãn lớp int64
câu trả lời_time_ms Vô hướng int64 Lượng thời gian mỗi người đánh giá dành cho mỗi câu hỏi chú thích về an toàn.
câu trả lời_timestamp Vô hướng int64 Thời điểm mỗi cuộc trò chuyện được người đánh giá đánh giá.
bối cảnh Chữ sợi dây Cuộc trò chuyện chuyển sang trước phản hồi cuối cùng của chatbot.
mức độ tác hại Nhãn lớp int64 Đánh giá có chú thích bằng tay về mức độ nghiêm trọng của rủi ro an toàn.
loại tác hại Trình tự(ClassLabel) (Không có,) int64 (Các) chủ đề gây hại được chú thích bằng tay của cuộc trò chuyện.
nhận dạng Vô hướng int64 Mã định danh bằng số cho mỗi hàng, thể hiện tất cả xếp hạng của một người xếp hạng cho một cuộc trò chuyện.
item_id Vô hướng int64 Mã định danh bằng số cho mỗi cuộc trò chuyện.
giai đoạn Nhãn lớp int64 Một trong ba khoảng thời gian riêng biệt.
người xếp hạng Nhãn lớp int64 Nhóm tuổi của người đánh giá.
người đánh giá_giáo dục Nhãn lớp int64 Trình độ học vấn của người đánh giá.
người xếp hạng_giới tính Nhãn lớp int64 Giới tính của người đánh giá.
người xếp hạng_id Vô hướng int64 Mã định danh bằng số cho mỗi người xếp hạng.
người xếp hạng_race Nhãn lớp int64 Chủng tộc/dân tộc của người đánh giá.
người đánh giá_raw_race Chữ sợi dây Chủng tộc/dân tộc thô tự báo cáo của người xếp hạng, trước khi đơn giản hóa thành năm loại.
phản ứng Chữ sợi dây Phản hồi cuối cùng của chatbot trong cuộc trò chuyện.
an toàn_vàng Nhãn lớp int64 Nhãn an toàn tiêu chuẩn vàng được cung cấp bởi các chuyên gia.
an toàn_vàng_lý do Chữ sợi dây (Các) lý do (nếu có) về việc dán nhãn an toàn vàng do chuyên gia cung cấp.

xúc xắc/990

  • Mô tả cấu hình : Bộ dữ liệu 990 chứa 990 cuộc hội thoại được xếp hạng bởi nhóm người xếp hạng đa dạng gồm 173 người xếp hạng duy nhất. Mỗi cuộc hội thoại được đánh giá theo ba hạng mục an toàn cấp cao nhất và một câu hỏi hiểu tổng thể về cuộc hội thoại. Người xếp hạng được tuyển dụng sao cho số lượng người xếp hạng cho mỗi cuộc trò chuyện được cân bằng theo giới tính (Nam, Nữ) và ngôn ngữ (Hoa Kỳ, Ấn Độ). Mỗi người đánh giá chỉ đánh giá một mẫu của cuộc trò chuyện. Mỗi cuộc trò chuyện có 60-70 xếp hạng duy nhất. Tổng số hàng trong tập dữ liệu này là 72103.

  • Kích thước tải xuống : 48.06 MiB

  • Kích thước tập dữ liệu : 150.38 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi shuffle_files=False (train)

  • Chia tách :

Tách ra Ví dụ
'train' 72,103
  • Cấu trúc tính năng :
FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64),
    'item_id': Scalar(shape=(), dtype=int64),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64),
    'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng loại D Sự miêu tả
Tính năngDict
Q1_whole_conversation_evaluation Nhãn lớp int64 Đánh giá về mức độ dễ hiểu của một cuộc trò chuyện.
Q2_harmful_content_explicitly_sex Nhãn lớp int64
Q2_harmful_content_financial_advice Nhãn lớp int64
Q2_harmful_content_harm_to_people_or_animals Nhãn lớp int64
Q2_harmful_content_health_and_safety_claims Nhãn lớp int64
Q2_harmful_content_how_tos_about_harmful_activities Nhãn lớp int64
Q2_harmful_content_obscenities_or_tục tĩu Nhãn lớp int64
Q2_harmful_content_other Nhãn lớp int64
Q2_harmful_content_tổng thể Nhãn lớp int64
Q2_harmful_content_personal_information Nhãn lớp int64
Q2_harmful_content_promotes_or_condones_use_of_harmful_regulation_goods Nhãn lớp int64
Q2_harmful_content_promotes_or_condones_violence Nhãn lớp int64
Q2_harmful_content_violent_or_gory Nhãn lớp int64
Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above Nhãn lớp int64
Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious Nhãn lớp int64
Q3_thiên vị_kích động_hận thù Nhãn lớp int64
Q3_bias_insults_about_emotional_lãng mạn_and_or_sex_sự hấp dẫn Nhãn lớp int64
Q3_bias_other Nhãn lớp int64
Q3_thiên_vật lý_hoặc_tinh thần_kém hơn Nhãn lớp int64
Q3_bias_subhuman_comparisons Nhãn lớp int64
Q3_bias_superiority_or_subjugation_of_a_group Nhãn lớp int64
Q3_không công bằng_thiên vị_tổng thể Nhãn lớp int64
Q4_thông tin sai lệch_âm mưu_thuyết Nhãn lớp int64
Q4_misinformation_contradicts_expert_consensus Nhãn lớp int64
Q4_misinformation_false_theories Nhãn lớp int64
Q4_misinformation_other Nhãn lớp int64
Q4_thông tin sai lệch_tổng thể Nhãn lớp int64
Q4_thông tin sai lệch_chính trị Nhãn lớp int64
Q_tổng thể Nhãn lớp int64
bối cảnh Chữ sợi dây Cuộc trò chuyện chuyển sang trước phản hồi cuối cùng của chatbot.
mức độ tác hại Nhãn lớp int64 Đánh giá có chú thích bằng tay về mức độ nghiêm trọng của rủi ro an toàn.
loại tác hại Trình tự(ClassLabel) (Không có,) int64 (Các) chủ đề gây hại được chú thích bằng tay của cuộc trò chuyện.
nhận dạng Vô hướng int64 Mã định danh bằng số cho mỗi hàng, thể hiện tất cả xếp hạng của một người xếp hạng cho một cuộc trò chuyện.
item_id Vô hướng int64 Mã định danh bằng số cho mỗi cuộc trò chuyện.
giai đoạn Nhãn lớp int64 Một trong ba khoảng thời gian riêng biệt.
người xếp hạng Nhãn lớp int64 Nhóm tuổi của người đánh giá.
người đánh giá_giáo dục Nhãn lớp int64 Trình độ học vấn của người đánh giá.
người xếp hạng_giới tính Nhãn lớp int64 Giới tính của người đánh giá.
người xếp hạng_id Vô hướng int64 Mã định danh bằng số cho mỗi người xếp hạng.
người xếp hạng_locale Nhãn lớp int64 Vị trí của người xếp hạng.
người xếp hạng_race Nhãn lớp int64 Chủng tộc/dân tộc của người đánh giá.
người đánh giá_raw_race Chữ sợi dây Chủng tộc/dân tộc thô tự báo cáo của người xếp hạng, trước khi đơn giản hóa thành năm loại.
phản ứng Chữ sợi dây Phản hồi cuối cùng của chatbot trong cuộc trò chuyện.