पांसे

विवरण :

सुरक्षा के लिए संवादात्मक एआई मूल्यांकन में विविधता ( DICES ) डेटासेट

मशीन लर्निंग दृष्टिकोण को अक्सर डेटासेट के साथ प्रशिक्षित और मूल्यांकन किया जाता है जिसके लिए सकारात्मक और नकारात्मक उदाहरणों के बीच स्पष्ट अलगाव की आवश्यकता होती है। यह दृष्टिकोण कई कार्यों और सामग्री वस्तुओं में मौजूद प्राकृतिक व्यक्तिपरकता को अत्यधिक सरल बनाता है। यह मानवीय धारणाओं और विचारों में अंतर्निहित विविधता को भी अस्पष्ट करता है। अक्सर वे कार्य जो मनुष्यों में सामग्री और विविधता में भिन्नता को संरक्षित करने का प्रयास करते हैं, काफी महंगे और श्रमसाध्य होते हैं। इस अंतर को भरने और अधिक गहन मॉडल प्रदर्शन विश्लेषण की सुविधा के लिए हम DICES डेटासेट का प्रस्ताव करते हैं - एआई उत्पन्न वार्तालापों की सुरक्षा पर विविध दृष्टिकोण वाला एक अद्वितीय डेटासेट। हम संवादात्मक एआई सिस्टम के सुरक्षा मूल्यांकन के कार्य पर ध्यान केंद्रित करते हैं। DICES डेटासेट में प्रत्येक रेटर के बारे में विस्तृत जनसांख्यिकी जानकारी होती है, आगे के विश्लेषणों के सांख्यिकीय महत्व को सुनिश्चित करने के लिए प्रति वार्तालाप अद्वितीय रेटिंग की अत्यधिक उच्च प्रतिकृति होती है और विभिन्न रेटिंग एकत्रीकरण रणनीतियों की गहन खोज की अनुमति देने के लिए विभिन्न जनसांख्यिकी में वितरण के रूप में रेटर वोटों को एन्कोड किया जाता है।

यह डेटासेट संवादी एआई की सुरक्षा के संदर्भ में भिन्नता, अस्पष्टता और विविधता को देखने और मापने के लिए उपयुक्त है। डेटासेट के साथ मेट्रिक्स के एक सेट का वर्णन करने वाला एक पेपर होता है जो दिखाता है कि रेटर विविधता विभिन्न भौगोलिक क्षेत्रों, जातीय समूहों, आयु समूहों और लिंगों के रेटर की सुरक्षा धारणा को कैसे प्रभावित करती है। DICES डेटासेट का लक्ष्य संवादी AI सिस्टम के सुरक्षा मूल्यांकन के लिए एक साझा बेंचमार्क के रूप में उपयोग करना है।

सामग्री चेतावनी : इस डेटासेट में बातचीत के प्रतिकूल उदाहरण हैं जो आपत्तिजनक हो सकते हैं।

मुखपृष्ठ : https://github.com/google-research-datasets/dices-dataset
स्रोत कोड : tfds.datasets.dices.Builder
संस्करण :
- 1.0.0 (डिफ़ॉल्ट): प्रारंभिक रिलीज़।
पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :

@article{aroyo2024dices,
  title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
  author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
  journal={Advances in Neural Information Processing Systems},
  volume={36},
  year={2024}
}

पासे/350 (डिफ़ॉल्ट कॉन्फ़िगरेशन)

कॉन्फ़िगरेशन विवरण : डेटासेट 350 में 123 अद्वितीय रेटर के विविध रेटर पूल द्वारा रेट किए गए 350 वार्तालाप शामिल हैं। प्रत्येक वार्तालाप को पाँच सुरक्षा शीर्ष-स्तरीय श्रेणियों और वार्तालाप के एक समग्र समझ वाले प्रश्न के साथ मूल्यांकित किया जाता है। मूल्यांकनकर्ताओं की भर्ती लिंग (पुरुष या महिला), नस्ल/जातीयता (श्वेत, काला, लातीनी, एशियाई, बहुजातीय) के आधार पर संतुलित की गई थी और प्रत्येक मूल्यांकनकर्ता ने सभी वस्तुओं का मूल्यांकन किया था। प्रत्येक मूल्यांकनकर्ता ने सभी वार्तालापों का मूल्यांकन किया। प्रत्येक वार्तालाप की 123 अद्वितीय रेटिंग हैं। इस डेटासेट में पंक्तियों की कुल संख्या 43050 है।
डाउनलोड आकार : 29.70 MiB
डेटासेट का आकार : 74.43 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :

विभाजित करना	उदाहरण
`'train'`	43,050

फ़ीचर संरचना :

FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'answer_time_ms': Scalar(shape=(), dtype=int64, description=Amount of time spent by each rater on each safety annotation question.),
    'answer_timestamp': Scalar(shape=(), dtype=int64, description=Time when each conversation was rated by each rater.),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
    'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
    'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'safety_gold_reason': Text(shape=(), dtype=string),
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	आकार	डीप्रकार	विवरण
	फीचर्सडिक्ट
Q1_संपूर्ण_बातचीत_मूल्यांकन	क्लास लेबल		int64	बातचीत की समझ के बारे में रेटिंग।
Q2_हानिकारक_सामग्री_खतरनाक_सामग्री	क्लास लेबल		int64
Q2_नाव_की_हानिकारक_सामग्री_का_अपमान	क्लास लेबल		int64
Q2_हानिकारक_सामग्री_असंवेदनशील	क्लास लेबल		int64
Q2_हानिकारक_सामग्री_चिकित्सा_कानूनी_वित्तीय_या_संबंध_सलाह	क्लास लेबल		int64
Q2_हानिकारक_सामग्री_अश्लील_और_अपवित्र	क्लास लेबल		int64
Q2_हानिकारक_सामग्री_अन्य	क्लास लेबल		int64
Q2_हानिकारक_सामग्री_समग्र	क्लास लेबल		int64
Q2_हानिकारक_सामग्री_व्यक्तिगत_जानकारी	क्लास लेबल		int64
Q2_हानिकारक_सामग्री_विनियमित_वस्तुएँ	क्लास लेबल		int64
Q2_हानिकारक_सामग्री_यौन_विचारोत्तेजक_सामग्री	क्लास लेबल		int64
Q3_पूर्वाग्रह_अन्य	क्लास लेबल		int64
Q3_पूर्वाग्रह_समग्र	क्लास लेबल		int64
Q3_पूर्वाग्रह_लक्ष्यीकरण_विश्वास	क्लास लेबल		int64
Q3_पूर्वाग्रह_लक्ष्यीकरण_लिंग_यौन_अभिविन्यास	क्लास लेबल		int64
Q3_पूर्वाग्रह_लक्ष्यीकरण_विरासत_विशेषताएँ	क्लास लेबल		int64
Q3_पूर्वाग्रह_लक्ष्यीकरण_स्थिति	क्लास लेबल		int64
Q4_गलत सूचना	क्लास लेबल		int64
Q5_राजनीतिक_संबद्धता	क्लास लेबल		int64
Q6_नीति_दिशानिर्देश_निर्माण_अनुमोदन	क्लास लेबल		int64
Q6_नीति_दिशानिर्देश_अन्य	क्लास लेबल		int64
Q6_नीति_दिशानिर्देश_समग्र	क्लास लेबल		int64
Q6_नीति_दिशानिर्देश_ध्रुवीकरण_विषय	क्लास लेबल		int64
Q_कुल मिलाकर	क्लास लेबल		int64
उत्तर_समय_एमएस	अदिश		int64	प्रत्येक सुरक्षा एनोटेशन प्रश्न पर प्रत्येक मूल्यांकनकर्ता द्वारा खर्च किया गया समय।
उत्तर_टाइमस्टैम्प	अदिश		int64	वह समय जब प्रत्येक वार्तालाप को प्रत्येक मूल्यांकनकर्ता द्वारा मूल्यांकित किया गया था।
प्रसंग	मूलपाठ		डोरी	अंतिम चैटबॉट प्रतिक्रिया से पहले बातचीत शुरू हो जाती है।
नुकसान की डिग्री	क्लास लेबल		int64	सुरक्षा जोखिम की गंभीरता की हस्तलिखित रेटिंग।
हानि_प्रकार	अनुक्रम(क्लासलेबल)	(कोई नहीं,)	int64	बातचीत के हानिकारक विषय(विषयों) को हाथ से एनोटेट करना।
पहचान	अदिश		int64	प्रत्येक पंक्ति के लिए संख्यात्मक पहचानकर्ता, एक ही वार्तालाप के लिए एक ही मूल्यांकनकर्ता द्वारा सभी रेटिंग का प्रतिनिधित्व करता है।
आइटम_आईडी	अदिश		int64	प्रत्येक वार्तालाप के लिए संख्यात्मक पहचानकर्ता.
चरण	क्लास लेबल		int64	तीन अलग-अलग समयावधियों में से एक।
मूल्यांकनकर्ता_आयु	क्लास लेबल		int64	मूल्यांकनकर्ता का आयु समूह.
रेटर_एजुकेशन	क्लास लेबल		int64	रेटर की शिक्षा.
मूल्यांकनकर्ता_लिंग	क्लास लेबल		int64	मूल्यांकनकर्ता का लिंग.
रेटर_आईडी	अदिश		int64	प्रत्येक मूल्यांकनकर्ता के लिए संख्यात्मक पहचानकर्ता।
रेटर_रेस	क्लास लेबल		int64	मूल्यांकनकर्ता की जाति/जातीयता.
रेटर_रॉ_रेस	मूलपाठ		डोरी	पांच श्रेणियों में सरलीकरण से पहले, मूल्यांकनकर्ता की स्व-रिपोर्ट की गई कच्ची नस्ल/जातीयता।
प्रतिक्रिया	मूलपाठ		डोरी	बातचीत में अंतिम चैटबॉट प्रतिक्रिया।
सुरक्षा_सोना	क्लास लेबल		int64	विशेषज्ञों द्वारा प्रदान किया गया स्वर्ण मानक सुरक्षा लेबल।
सुरक्षा_सोना_कारण	मूलपाठ		डोरी	विशेषज्ञों द्वारा प्रदान किए गए सोने के सुरक्षा लेबल के लिए कारण (यदि दिए गए हैं)।

उदाहरण ( tfds.as_dataframe ):