- Sự miêu tả :
Bộ dữ liệu về tính đa dạng trong đánh giá an toàn của AI trong đàm thoại ( DICES )
Các phương pháp học máy thường được đào tạo và đánh giá bằng các bộ dữ liệu yêu cầu sự tách biệt rõ ràng giữa các ví dụ tích cực và tiêu cực. Cách tiếp cận này đơn giản hóa quá mức tính chủ quan tự nhiên hiện diện trong nhiều nhiệm vụ và mục nội dung. Nó cũng che khuất sự đa dạng vốn có trong nhận thức và quan điểm của con người. Thông thường, các nhiệm vụ cố gắng duy trì sự khác biệt về nội dung và tính đa dạng ở con người khá tốn kém và tốn nhiều công sức. Để lấp đầy khoảng trống này và tạo điều kiện cho các phân tích hiệu suất mô hình chuyên sâu hơn, chúng tôi đề xuất bộ dữ liệu DICES - một bộ dữ liệu độc đáo với các quan điểm đa dạng về tính an toàn của các cuộc hội thoại do AI tạo ra. Chúng tôi tập trung vào nhiệm vụ đánh giá độ an toàn của hệ thống AI đàm thoại. Bộ dữ liệu DICES chứa thông tin nhân khẩu học chi tiết về từng người xếp hạng, có khả năng sao chép cực kỳ cao các xếp hạng duy nhất cho mỗi cuộc hội thoại để đảm bảo ý nghĩa thống kê của các phân tích sâu hơn và mã hóa phiếu bầu của người xếp hạng dưới dạng phân phối trên các nhân khẩu học khác nhau để cho phép khám phá sâu về các chiến lược tổng hợp xếp hạng khác nhau.
Bộ dữ liệu này rất phù hợp để quan sát và đo lường sự khác biệt, sự mơ hồ và đa dạng trong bối cảnh an toàn của AI đàm thoại. Bộ dữ liệu đi kèm với một bài viết mô tả một bộ số liệu cho thấy mức độ ảnh hưởng của sự đa dạng của người đánh giá đến nhận thức về an toàn của những người đánh giá từ các khu vực địa lý, nhóm dân tộc, nhóm tuổi và giới tính khác nhau. Mục tiêu của bộ dữ liệu DICES là được sử dụng làm chuẩn mực chung để đánh giá mức độ an toàn của các hệ thống AI đàm thoại.
CẢNH BÁO NỘI DUNG : Tập dữ liệu này chứa các ví dụ đối nghịch về các cuộc hội thoại có thể mang tính xúc phạm.
Trang chủ : https://github.com/google-research-datasets/dices-dataset
Mã nguồn :
tfds.datasets.dices.Builder
Phiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Trích dẫn :
@article{aroyo2024dices,
title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
journal={Advances in Neural Information Processing Systems},
volume={36},
year={2024}
}
xúc xắc/350 (cấu hình mặc định)
Mô tả cấu hình : Bộ dữ liệu 350 chứa 350 cuộc hội thoại được xếp hạng bởi nhóm người xếp hạng đa dạng gồm 123 người xếp hạng duy nhất. Mỗi cuộc trò chuyện được đánh giá theo năm hạng mục an toàn cấp cao nhất và một câu hỏi hiểu tổng thể về cuộc trò chuyện. Những người đánh giá được tuyển dụng được cân bằng theo giới tính (nam hay nữ), chủng tộc/dân tộc (Da trắng, Da đen, người Latinh, Châu Á, Đa chủng tộc) và mỗi người đánh giá đều xếp hạng tất cả các mục. Mỗi người xếp hạng đánh giá tất cả các cuộc hội thoại. Mỗi cuộc trò chuyện có 123 xếp hạng duy nhất. Tổng số hàng trong tập dữ liệu này là 43050.
Kích thước tải xuống :
29.70 MiB
Kích thước tập dữ liệu :
74.43 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 43.050 |
- Cấu trúc tính năng :
FeaturesDict({
'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'answer_time_ms': Scalar(shape=(), dtype=int64, description=Amount of time spent by each rater on each safety annotation question.),
'answer_timestamp': Scalar(shape=(), dtype=int64, description=Time when each conversation was rated by each rater.),
'context': Text(shape=(), dtype=string),
'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
'rater_raw_race': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
'safety_gold_reason': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | loại D | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
Q1_whole_conversation_evaluation | Nhãn lớp | int64 | Đánh giá về mức độ dễ hiểu của một cuộc trò chuyện. | |
Q2_harmful_content_dangeous_content | Nhãn lớp | int64 | ||
Q2_harmful_content_derogation_of_boat | Nhãn lớp | int64 | ||
Q2_harmful_content_insensitive | Nhãn lớp | int64 | ||
Q2_harmful_content_Medical_legal_financial_or_relationship_advice | Nhãn lớp | int64 | ||
Q2_harmful_content_obscene_and_profane | Nhãn lớp | int64 | ||
Q2_harmful_content_other | Nhãn lớp | int64 | ||
Q2_harmful_content_tổng thể | Nhãn lớp | int64 | ||
Q2_harmful_content_personal_information | Nhãn lớp | int64 | ||
Q2_harmful_content_regulation_goods | Nhãn lớp | int64 | ||
Q2_harmful_content_sexy_suggestive_content | Nhãn lớp | int64 | ||
Q3_bias_other | Nhãn lớp | int64 | ||
Q3_bias_tổng thể | Nhãn lớp | int64 | ||
Q3_bias_targeting_beliefs | Nhãn lớp | int64 | ||
Q3_bias_targeting_giới tính_định hướng | Nhãn lớp | int64 | ||
Q3_bias_targeting_inherited_attributes | Nhãn lớp | int64 | ||
Q3_bias_targeting_status | Nhãn lớp | int64 | ||
Q4_thông tin sai lệch | Nhãn lớp | int64 | ||
Q5_chính trị_liên kết | Nhãn lớp | int64 | ||
Q6_policy_guidelines_making_endorsement | Nhãn lớp | int64 | ||
Q6_policy_guidelines_other | Nhãn lớp | int64 | ||
Q6_policy_guidelines_overall | Nhãn lớp | int64 | ||
Q6_policy_guidelines_polizing_topics | Nhãn lớp | int64 | ||
Q_tổng thể | Nhãn lớp | int64 | ||
câu trả lời_time_ms | vô hướng | int64 | Lượng thời gian mỗi người đánh giá dành cho mỗi câu hỏi chú thích về an toàn. | |
câu trả lời_timestamp | vô hướng | int64 | Thời điểm mỗi cuộc trò chuyện được người đánh giá đánh giá. | |
bối cảnh | Chữ | sợi dây | Cuộc trò chuyện chuyển sang trước phản hồi cuối cùng của chatbot. | |
mức độ tác hại | Nhãn lớp | int64 | Đánh giá có chú thích bằng tay về mức độ nghiêm trọng của rủi ro an toàn. | |
loại tác hại | Trình tự(ClassLabel) | (Không có,) | int64 | (Các) chủ đề gây hại được chú thích bằng tay của cuộc trò chuyện. |
nhận dạng | vô hướng | int64 | Mã định danh bằng số cho mỗi hàng, thể hiện tất cả xếp hạng của một người xếp hạng cho một cuộc trò chuyện. | |
item_id | vô hướng | int64 | Mã định danh bằng số cho mỗi cuộc trò chuyện. | |
giai đoạn | Nhãn lớp | int64 | Một trong ba khoảng thời gian riêng biệt. | |
người xếp hạng | Nhãn lớp | int64 | Nhóm tuổi của người đánh giá. | |
người đánh giá_giáo dục | Nhãn lớp | int64 | Trình độ học vấn của người đánh giá. | |
người xếp hạng_giới tính | Nhãn lớp | int64 | Giới tính của người đánh giá. | |
người xếp hạng_id | vô hướng | int64 | Mã định danh bằng số cho mỗi người xếp hạng. | |
người xếp hạng_race | Nhãn lớp | int64 | Chủng tộc/dân tộc của người đánh giá. | |
người đánh giá_raw_race | Chữ | sợi dây | Chủng tộc/dân tộc thô tự báo cáo của người xếp hạng, trước khi đơn giản hóa thành năm loại. | |
phản ứng | Chữ | sợi dây | Phản hồi cuối cùng của chatbot trong cuộc trò chuyện. | |
an toàn_vàng | Nhãn lớp | int64 | Nhãn an toàn tiêu chuẩn vàng được cung cấp bởi các chuyên gia. | |
an toàn_vàng_lý do | Chữ | sợi dây | (Các) lý do (nếu có) về việc dán nhãn an toàn vàng do chuyên gia cung cấp. |
- Ví dụ ( tfds.as_dataframe ):
xúc xắc/990
Mô tả cấu hình : Bộ dữ liệu 990 chứa 990 cuộc hội thoại được xếp hạng bởi nhóm người xếp hạng đa dạng gồm 173 người xếp hạng duy nhất. Mỗi cuộc hội thoại được đánh giá theo ba hạng mục an toàn cấp cao nhất và một câu hỏi hiểu tổng thể về cuộc hội thoại. Người xếp hạng được tuyển dụng sao cho số lượng người xếp hạng cho mỗi cuộc trò chuyện được cân bằng theo giới tính (Nam, Nữ) và ngôn ngữ (Hoa Kỳ, Ấn Độ). Mỗi người đánh giá chỉ đánh giá một mẫu của cuộc trò chuyện. Mỗi cuộc trò chuyện có 60-70 xếp hạng duy nhất. Tổng số hàng trong tập dữ liệu này là 72103.
Kích thước tải xuống :
48.06 MiB
Kích thước tập dữ liệu :
150.38 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi
shuffle_files=False
(train)Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 72,103 |
- Cấu trúc tính năng :
FeaturesDict({
'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'context': Text(shape=(), dtype=string),
'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
'rater_raw_race': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | loại D | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
Q1_whole_conversation_evaluation | Nhãn lớp | int64 | Đánh giá về mức độ dễ hiểu của một cuộc trò chuyện. | |
Q2_harmful_content_explicitly_sex | Nhãn lớp | int64 | ||
Q2_harmful_content_financial_advice | Nhãn lớp | int64 | ||
Q2_harmful_content_harm_to_people_or_animals | Nhãn lớp | int64 | ||
Q2_harmful_content_health_and_safety_claims | Nhãn lớp | int64 | ||
Q2_harmful_content_how_tos_about_harmful_activities | Nhãn lớp | int64 | ||
Q2_harmful_content_obscenities_or_tục tĩu | Nhãn lớp | int64 | ||
Q2_harmful_content_other | Nhãn lớp | int64 | ||
Q2_harmful_content_tổng thể | Nhãn lớp | int64 | ||
Q2_harmful_content_personal_information | Nhãn lớp | int64 | ||
Q2_harmful_content_promotes_or_condones_use_of_harmful_regulation_goods | Nhãn lớp | int64 | ||
Q2_harmful_content_promotes_or_condones_violence | Nhãn lớp | int64 | ||
Q2_harmful_content_violent_or_gory | Nhãn lớp | int64 | ||
Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above | Nhãn lớp | int64 | ||
Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious | Nhãn lớp | int64 | ||
Q3_thiên vị_kích động_hận thù | Nhãn lớp | int64 | ||
Q3_bias_insults_about_emotional_lãng mạn_and_or_sex_sự hấp dẫn | Nhãn lớp | int64 | ||
Q3_bias_other | Nhãn lớp | int64 | ||
Q3_thiên_vật lý_hoặc_tinh thần_kém hơn | Nhãn lớp | int64 | ||
Q3_bias_subhuman_comparisons | Nhãn lớp | int64 | ||
Q3_bias_superiority_or_subjugation_of_a_group | Nhãn lớp | int64 | ||
Q3_không công bằng_thiên vị_tổng thể | Nhãn lớp | int64 | ||
Q4_thông tin sai lệch_âm mưu_thuyết | Nhãn lớp | int64 | ||
Q4_misinformation_contradicts_expert_consensus | Nhãn lớp | int64 | ||
Q4_misinformation_false_theories | Nhãn lớp | int64 | ||
Q4_misinformation_other | Nhãn lớp | int64 | ||
Q4_thông tin sai lệch_tổng thể | Nhãn lớp | int64 | ||
Q4_thông tin sai lệch_chính trị | Nhãn lớp | int64 | ||
Q_tổng thể | Nhãn lớp | int64 | ||
bối cảnh | Chữ | sợi dây | Cuộc trò chuyện chuyển sang trước phản hồi cuối cùng của chatbot. | |
mức độ tác hại | Nhãn lớp | int64 | Đánh giá có chú thích bằng tay về mức độ nghiêm trọng của rủi ro an toàn. | |
loại tác hại | Trình tự(ClassLabel) | (Không có,) | int64 | (Các) chủ đề gây hại được chú thích bằng tay của cuộc trò chuyện. |
nhận dạng | vô hướng | int64 | Mã định danh bằng số cho mỗi hàng, thể hiện tất cả xếp hạng của một người xếp hạng cho một cuộc trò chuyện. | |
item_id | vô hướng | int64 | Mã định danh bằng số cho mỗi cuộc trò chuyện. | |
giai đoạn | Nhãn lớp | int64 | Một trong ba khoảng thời gian riêng biệt. | |
người xếp hạng | Nhãn lớp | int64 | Nhóm tuổi của người đánh giá. | |
người đánh giá_giáo dục | Nhãn lớp | int64 | Trình độ học vấn của người đánh giá. | |
người xếp hạng_giới tính | Nhãn lớp | int64 | Giới tính của người đánh giá. | |
người xếp hạng_id | vô hướng | int64 | Mã định danh bằng số cho mỗi người xếp hạng. | |
người xếp hạng_locale | Nhãn lớp | int64 | Vị trí của người xếp hạng. | |
người xếp hạng_race | Nhãn lớp | int64 | Chủng tộc/dân tộc của người đánh giá. | |
người đánh giá_raw_race | Chữ | sợi dây | Chủng tộc/dân tộc thô tự báo cáo của người xếp hạng, trước khi đơn giản hóa thành năm loại. | |
phản ứng | Chữ | sợi dây | Phản hồi cuối cùng của chatbot trong cuộc trò chuyện. |
- Ví dụ ( tfds.as_dataframe ):