xúc xắc

Sự miêu tả :

Bộ dữ liệu về tính đa dạng trong đánh giá an toàn của AI trong đàm thoại ( DICES )

Các phương pháp học máy thường được đào tạo và đánh giá bằng các bộ dữ liệu yêu cầu sự tách biệt rõ ràng giữa các ví dụ tích cực và tiêu cực. Cách tiếp cận này đơn giản hóa quá mức tính chủ quan tự nhiên hiện diện trong nhiều nhiệm vụ và mục nội dung. Nó cũng che khuất sự đa dạng vốn có trong nhận thức và quan điểm của con người. Thông thường, các nhiệm vụ cố gắng duy trì sự khác biệt về nội dung và tính đa dạng ở con người khá tốn kém và tốn nhiều công sức. Để lấp đầy khoảng trống này và tạo điều kiện cho các phân tích hiệu suất mô hình chuyên sâu hơn, chúng tôi đề xuất bộ dữ liệu DICES - một bộ dữ liệu độc đáo với các quan điểm đa dạng về tính an toàn của các cuộc hội thoại do AI tạo ra. Chúng tôi tập trung vào nhiệm vụ đánh giá độ an toàn của hệ thống AI đàm thoại. Bộ dữ liệu DICES chứa thông tin nhân khẩu học chi tiết về từng người xếp hạng, có khả năng sao chép cực kỳ cao các xếp hạng duy nhất cho mỗi cuộc hội thoại để đảm bảo ý nghĩa thống kê của các phân tích sâu hơn và mã hóa phiếu bầu của người xếp hạng dưới dạng phân phối trên các nhân khẩu học khác nhau để cho phép khám phá sâu về các chiến lược tổng hợp xếp hạng khác nhau.

Bộ dữ liệu này rất phù hợp để quan sát và đo lường sự khác biệt, sự mơ hồ và đa dạng trong bối cảnh an toàn của AI đàm thoại. Bộ dữ liệu đi kèm với một bài viết mô tả một bộ số liệu cho thấy mức độ ảnh hưởng của sự đa dạng của người đánh giá đến nhận thức về an toàn của những người đánh giá từ các khu vực địa lý, nhóm dân tộc, nhóm tuổi và giới tính khác nhau. Mục tiêu của bộ dữ liệu DICES là được sử dụng làm chuẩn mực chung để đánh giá mức độ an toàn của các hệ thống AI đàm thoại.

CẢNH BÁO NỘI DUNG : Tập dữ liệu này chứa các ví dụ đối nghịch về các cuộc hội thoại có thể mang tính xúc phạm.

Trang chủ : https://github.com/google-research-datasets/dices-dataset
Mã nguồn : tfds.datasets.dices.Builder
Phiên bản :
- 1.0.0 (mặc định): Bản phát hành đầu tiên.
Khóa được giám sát (Xem as_supervised doc ): None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Trích dẫn :

@article{aroyo2024dices,
  title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
  author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
  journal={Advances in Neural Information Processing Systems},
  volume={36},
  year={2024}
}

xúc xắc/350 (cấu hình mặc định)

Mô tả cấu hình : Bộ dữ liệu 350 chứa 350 cuộc hội thoại được xếp hạng bởi nhóm người xếp hạng đa dạng gồm 123 người xếp hạng duy nhất. Mỗi cuộc trò chuyện được đánh giá theo năm hạng mục an toàn cấp cao nhất và một câu hỏi hiểu tổng thể về cuộc trò chuyện. Những người đánh giá được tuyển dụng được cân bằng theo giới tính (nam hay nữ), chủng tộc/dân tộc (Da trắng, Da đen, người Latinh, Châu Á, Đa chủng tộc) và mỗi người đánh giá đều xếp hạng tất cả các mục. Mỗi người xếp hạng đánh giá tất cả các cuộc hội thoại. Mỗi cuộc trò chuyện có 123 xếp hạng duy nhất. Tổng số hàng trong tập dữ liệu này là 43050.
Kích thước tải xuống : 29.70 MiB
Kích thước tập dữ liệu : 74.43 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Chia tách :

Tách ra	Ví dụ
`'train'`	43.050

Cấu trúc tính năng :

FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'answer_time_ms': Scalar(shape=(), dtype=int64, description=Amount of time spent by each rater on each safety annotation question.),
    'answer_timestamp': Scalar(shape=(), dtype=int64, description=Time when each conversation was rated by each rater.),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
    'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
    'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'safety_gold_reason': Text(shape=(), dtype=string),
})

Tài liệu tính năng :

Tính năng	Lớp học	Hình dạng	loại D	Sự miêu tả
	Tính năngDict
Q1_whole_conversation_evaluation	Nhãn lớp		int64	Đánh giá về mức độ dễ hiểu của một cuộc trò chuyện.
Q2_harmful_content_dangeous_content	Nhãn lớp		int64
Q2_harmful_content_derogation_of_boat	Nhãn lớp		int64
Q2_harmful_content_insensitive	Nhãn lớp		int64
Q2_harmful_content_Medical_legal_financial_or_relationship_advice	Nhãn lớp		int64
Q2_harmful_content_obscene_and_profane	Nhãn lớp		int64
Q2_harmful_content_other	Nhãn lớp		int64
Q2_harmful_content_tổng thể	Nhãn lớp		int64
Q2_harmful_content_personal_information	Nhãn lớp		int64
Q2_harmful_content_regulation_goods	Nhãn lớp		int64
Q2_harmful_content_sexy_suggestive_content	Nhãn lớp		int64
Q3_bias_other	Nhãn lớp		int64
Q3_bias_tổng thể	Nhãn lớp		int64
Q3_bias_targeting_beliefs	Nhãn lớp		int64
Q3_bias_targeting_giới tính_định hướng	Nhãn lớp		int64
Q3_bias_targeting_inherited_attributes	Nhãn lớp		int64
Q3_bias_targeting_status	Nhãn lớp		int64
Q4_thông tin sai lệch	Nhãn lớp		int64
Q5_chính trị_liên kết	Nhãn lớp		int64
Q6_policy_guidelines_making_endorsement	Nhãn lớp		int64
Q6_policy_guidelines_other	Nhãn lớp		int64
Q6_policy_guidelines_overall	Nhãn lớp		int64
Q6_policy_guidelines_polizing_topics	Nhãn lớp		int64
Q_tổng thể	Nhãn lớp		int64
câu trả lời_time_ms	vô hướng		int64	Lượng thời gian mỗi người đánh giá dành cho mỗi câu hỏi chú thích về an toàn.
câu trả lời_timestamp	vô hướng		int64	Thời điểm mỗi cuộc trò chuyện được người đánh giá đánh giá.
bối cảnh	Chữ		sợi dây	Cuộc trò chuyện chuyển sang trước phản hồi cuối cùng của chatbot.
mức độ tác hại	Nhãn lớp		int64	Đánh giá có chú thích bằng tay về mức độ nghiêm trọng của rủi ro an toàn.
loại tác hại	Trình tự(ClassLabel)	(Không có,)	int64	(Các) chủ đề gây hại được chú thích bằng tay của cuộc trò chuyện.
nhận dạng	vô hướng		int64	Mã định danh bằng số cho mỗi hàng, thể hiện tất cả xếp hạng của một người xếp hạng cho một cuộc trò chuyện.
item_id	vô hướng		int64	Mã định danh bằng số cho mỗi cuộc trò chuyện.
giai đoạn	Nhãn lớp		int64	Một trong ba khoảng thời gian riêng biệt.
người xếp hạng	Nhãn lớp		int64	Nhóm tuổi của người đánh giá.
người đánh giá_giáo dục	Nhãn lớp		int64	Trình độ học vấn của người đánh giá.
người xếp hạng_giới tính	Nhãn lớp		int64	Giới tính của người đánh giá.
người xếp hạng_id	vô hướng		int64	Mã định danh bằng số cho mỗi người xếp hạng.
người xếp hạng_race	Nhãn lớp		int64	Chủng tộc/dân tộc của người đánh giá.
người đánh giá_raw_race	Chữ		sợi dây	Chủng tộc/dân tộc thô tự báo cáo của người xếp hạng, trước khi đơn giản hóa thành năm loại.
phản ứng	Chữ		sợi dây	Phản hồi cuối cùng của chatbot trong cuộc trò chuyện.
an toàn_vàng	Nhãn lớp		int64	Nhãn an toàn tiêu chuẩn vàng được cung cấp bởi các chuyên gia.
an toàn_vàng_lý do	Chữ		sợi dây	(Các) lý do (nếu có) về việc dán nhãn an toàn vàng do chuyên gia cung cấp.

Ví dụ ( tfds.as_dataframe ):

xúc xắc/990

Mô tả cấu hình : Bộ dữ liệu 990 chứa 990 cuộc hội thoại được xếp hạng bởi nhóm người xếp hạng đa dạng gồm 173 người xếp hạng duy nhất. Mỗi cuộc hội thoại được đánh giá theo ba hạng mục an toàn cấp cao nhất và một câu hỏi hiểu tổng thể về cuộc hội thoại. Người xếp hạng được tuyển dụng sao cho số lượng người xếp hạng cho mỗi cuộc trò chuyện được cân bằng theo giới tính (Nam, Nữ) và ngôn ngữ (Hoa Kỳ, Ấn Độ). Mỗi người đánh giá chỉ đánh giá một mẫu của cuộc trò chuyện. Mỗi cuộc trò chuyện có 60-70 xếp hạng duy nhất. Tổng số hàng trong tập dữ liệu này là 72103.
Kích thước tải xuống : 48.06 MiB
Kích thước tập dữ liệu : 150.38 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi shuffle_files=False (train)
Chia tách :

Tách ra	Ví dụ
`'train'`	72,103

Cấu trúc tính năng :

FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
    'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
    'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
})

Tài liệu tính năng :

Tính năng	Lớp học	Hình dạng	loại D	Sự miêu tả
	Tính năngDict
Q1_whole_conversation_evaluation	Nhãn lớp		int64	Đánh giá về mức độ dễ hiểu của một cuộc trò chuyện.
Q2_harmful_content_explicitly_sex	Nhãn lớp		int64
Q2_harmful_content_financial_advice	Nhãn lớp		int64
Q2_harmful_content_harm_to_people_or_animals	Nhãn lớp		int64
Q2_harmful_content_health_and_safety_claims	Nhãn lớp		int64
Q2_harmful_content_how_tos_about_harmful_activities	Nhãn lớp		int64
Q2_harmful_content_obscenities_or_tục tĩu	Nhãn lớp		int64
Q2_harmful_content_other	Nhãn lớp		int64
Q2_harmful_content_tổng thể	Nhãn lớp		int64
Q2_harmful_content_personal_information	Nhãn lớp		int64
Q2_harmful_content_promotes_or_condones_use_of_harmful_regulation_goods	Nhãn lớp		int64
Q2_harmful_content_promotes_or_condones_violence	Nhãn lớp		int64
Q2_harmful_content_violent_or_gory	Nhãn lớp		int64
Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above	Nhãn lớp		int64
Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious	Nhãn lớp		int64
Q3_thiên vị_kích động_hận thù	Nhãn lớp		int64
Q3_bias_insults_about_emotional_lãng mạn_and_or_sex_sự hấp dẫn	Nhãn lớp		int64
Q3_bias_other	Nhãn lớp		int64
Q3_thiên_vật lý_hoặc_tinh thần_kém hơn	Nhãn lớp		int64
Q3_bias_subhuman_comparisons	Nhãn lớp		int64
Q3_bias_superiority_or_subjugation_of_a_group	Nhãn lớp		int64
Q3_không công bằng_thiên vị_tổng thể	Nhãn lớp		int64
Q4_thông tin sai lệch_âm mưu_thuyết	Nhãn lớp		int64
Q4_misinformation_contradicts_expert_consensus	Nhãn lớp		int64
Q4_misinformation_false_theories	Nhãn lớp		int64
Q4_misinformation_other	Nhãn lớp		int64
Q4_thông tin sai lệch_tổng thể	Nhãn lớp		int64
Q4_thông tin sai lệch_chính trị	Nhãn lớp		int64
Q_tổng thể	Nhãn lớp		int64
bối cảnh	Chữ		sợi dây	Cuộc trò chuyện chuyển sang trước phản hồi cuối cùng của chatbot.
mức độ tác hại	Nhãn lớp		int64	Đánh giá có chú thích bằng tay về mức độ nghiêm trọng của rủi ro an toàn.
loại tác hại	Trình tự(ClassLabel)	(Không có,)	int64	(Các) chủ đề gây hại được chú thích bằng tay của cuộc trò chuyện.
nhận dạng	vô hướng		int64	Mã định danh bằng số cho mỗi hàng, thể hiện tất cả xếp hạng của một người xếp hạng cho một cuộc trò chuyện.
item_id	vô hướng		int64	Mã định danh bằng số cho mỗi cuộc trò chuyện.
giai đoạn	Nhãn lớp		int64	Một trong ba khoảng thời gian riêng biệt.
người xếp hạng	Nhãn lớp		int64	Nhóm tuổi của người đánh giá.
người đánh giá_giáo dục	Nhãn lớp		int64	Trình độ học vấn của người đánh giá.
người xếp hạng_giới tính	Nhãn lớp		int64	Giới tính của người đánh giá.
người xếp hạng_id	vô hướng		int64	Mã định danh bằng số cho mỗi người xếp hạng.
người xếp hạng_locale	Nhãn lớp		int64	Vị trí của người xếp hạng.
người xếp hạng_race	Nhãn lớp		int64	Chủng tộc/dân tộc của người đánh giá.
người đánh giá_raw_race	Chữ		sợi dây	Chủng tộc/dân tộc thô tự báo cáo của người xếp hạng, trước khi đơn giản hóa thành năm loại.
phản ứng	Chữ		sợi dây	Phản hồi cuối cùng của chatbot trong cuộc trò chuyện.

Ví dụ ( tfds.as_dataframe ):