kostki

Opis :

Zbiór danych Diversity in Conversational AI Evaluation for Safety ( DICES ).

Podejścia do uczenia maszynowego są często szkolone i oceniane przy użyciu zestawów danych, które wymagają wyraźnego oddzielenia przykładów pozytywnych i negatywnych. Takie podejście nadmiernie upraszcza naturalną podmiotowość obecną w wielu zadaniach i elementach treści. Zaciemnia także wrodzoną różnorodność ludzkich percepcji i opinii. Często zadania mające na celu zachowanie różnorodności treści i różnorodności u ludzi są dość kosztowne i pracochłonne. Aby wypełnić tę lukę i ułatwić bardziej dogłębne analizy wydajności modelu, proponujemy zbiór danych DICES – unikalny zbiór danych z różnorodnymi perspektywami na bezpieczeństwo rozmów generowanych przez sztuczną inteligencję. Koncentrujemy się na zadaniu oceny bezpieczeństwa konwersacyjnych systemów AI. Zbiór danych DICES zawiera szczegółowe informacje demograficzne o każdym oceniającym, niezwykle wysoką replikację unikalnych ocen na rozmowę, aby zapewnić statystyczną istotność dalszych analiz, a także koduje głosy oceniających jako rozkład w różnych grupach demograficznych, aby umożliwić dogłębną eksplorację różnych strategii agregacji ocen.

Ten zbiór danych dobrze nadaje się do obserwacji i pomiaru wariancji, niejednoznaczności i różnorodności w kontekście bezpieczeństwa konwersacyjnej sztucznej inteligencji. Do zbioru danych dołączony jest artykuł opisujący zestaw wskaźników pokazujących, jak różnorodność oceniających wpływa na postrzeganie bezpieczeństwa przez oceniających z różnych regionów geograficznych, grup etnicznych, grup wiekowych i płci. Celem zbioru danych DICES jest wykorzystanie go jako wspólnego punktu odniesienia do oceny bezpieczeństwa konwersacyjnych systemów sztucznej inteligencji.

OSTRZEŻENIE O TREŚCI : ten zbiór danych zawiera przeciwstawne przykłady rozmów, które mogą być obraźliwe.

Strona główna : https://github.com/google-research-datasets/dices-dataset
Kod źródłowy : tfds.datasets.dices.Builder
Wersje :
- 1.0.0 (domyślnie): Wersja pierwsza.
Klucze nadzorowane (zobacz dokument as_supervised ): None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :

@article{aroyo2024dices,
  title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
  author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
  journal={Advances in Neural Information Processing Systems},
  volume={36},
  year={2024}
}

dices/350 (konfiguracja domyślna)

Opis konfiguracji : Zestaw danych 350 zawiera 350 rozmów ocenionych przez zróżnicowaną pulę 123 unikalnych osób oceniających. Każda rozmowa jest oceniana w pięciu kategoriach bezpieczeństwa najwyższego poziomu i jednym pytaniu dotyczącym ogólnego zrozumienia rozmowy. Rekrutowani oceniający byli zbilansowani pod względem płci (mężczyzna lub kobieta), rasy/pochodzenia etnicznego (biały, czarny, Latynos, Azjata, wielorasowy) i każdy oceniający ocenił wszystkie elementy. Każdy oceniający ocenił wszystkie rozmowy. Każda rozmowa ma 123 unikalne oceny. Całkowita liczba wierszy w tym zbiorze danych wynosi 43050.
Rozmiar pobierania : 29.70 MiB
Rozmiar zbioru danych : 74.43 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :

Podział	Przykłady
`'train'`	43050

Struktura funkcji :

FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'answer_time_ms': Scalar(shape=(), dtype=int64, description=Amount of time spent by each rater on each safety annotation question.),
    'answer_timestamp': Scalar(shape=(), dtype=int64, description=Time when each conversation was rated by each rater.),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
    'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
    'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'safety_gold_reason': Text(shape=(), dtype=string),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształt	Typ D	Opis
	FunkcjeDykt
Q1_whole_conversation_evaluation	Etykieta klasy		int64	Ocena dotycząca zrozumiałości rozmowy.
Q2_harmful_content_dangerous_content	Etykieta klasy		int64
Q2_harmful_content_derogation_of_boat	Etykieta klasy		int64
Q2_harmful_content_inprotection	Etykieta klasy		int64
Q2_harmful_content_medical_legal_financial_or_relationship_advice	Etykieta klasy		int64
Q2_harmful_content_obscene_and_profane	Etykieta klasy		int64
Q2_harmful_content_other	Etykieta klasy		int64
Q2_harmful_content_overall	Etykieta klasy		int64
Q2_harmful_content_personal_information	Etykieta klasy		int64
Q2_harmful_content_regulated_goods	Etykieta klasy		int64
Q2_harmful_content_seksualnie_suggestive_content	Etykieta klasy		int64
Q3_bias_other	Etykieta klasy		int64
Q3_bias_overall	Etykieta klasy		int64
Q3_bias_targeting_beliefs	Etykieta klasy		int64
Q3_bias_targeting_gender_seksualna_orientacja	Etykieta klasy		int64
Q3_bias_targeting_inherited_attributes	Etykieta klasy		int64
Q3_bias_targeting_status	Etykieta klasy		int64
Q4_dezinformacja	Etykieta klasy		int64
Q5_przynależność_polityczna	Etykieta klasy		int64
Q6_policy_guidelines_making_endorsement	Etykieta klasy		int64
Q6_policy_guidelines_other	Etykieta klasy		int64
Q6_policy_guidelines_overall	Etykieta klasy		int64
Q6_policy_guidelines_polarizing_topics	Etykieta klasy		int64
P_ogółem	Etykieta klasy		int64
odpowiedź_czas_ms	Skalarny		int64	Ilość czasu spędzonego przez każdego oceniającego nad każdym pytaniem dotyczącym adnotacji dotyczącej bezpieczeństwa.
odpowiedź_znacznik czasu	Skalarny		int64	Czas, w którym każda rozmowa została oceniona przez każdego oceniającego.
kontekst	Tekst		smyczkowy	Rozmowa toczy się przed ostateczną odpowiedzią chatbota.
stopień_szkody	Etykieta klasy		int64	Odręcznie opisana ocena powagi ryzyka bezpieczeństwa.
typ_szkody	Sekwencja (etykieta klasy)	(Nic,)	int64	Temat(y) rozmowy dotyczące szkód z odręcznymi adnotacjami.
id	Skalarny		int64	Identyfikator liczbowy każdego wiersza reprezentujący wszystkie oceny wystawione przez jednego oceniającego w ramach jednej rozmowy.
identyfikator_przedmiotu	Skalarny		int64	Numeryczny identyfikator każdej rozmowy.
faza	Etykieta klasy		int64	Jeden z trzech różnych okresów.
oceniający_wiek	Etykieta klasy		int64	Grupa wiekowa oceniającego.
oceniający_edukacja	Etykieta klasy		int64	Edukacja oceniającego.
oceniający_płeć	Etykieta klasy		int64	Płeć oceniającego.
id oceniającego	Skalarny		int64	Numeryczny identyfikator każdego oceniającego.
oceniający_wyścig	Etykieta klasy		int64	Rasa/pochodzenie etniczne oceniającego.
oceniający_raw_race	Tekst		smyczkowy	Zgłoszona przez siebie, surowa rasa/pochodzenie etniczne oceniającego, przed uproszczeniem do pięciu kategorii.
odpowiedź	Tekst		smyczkowy	Ostateczna odpowiedź chatbota w rozmowie.
bezpieczeństwo_złoto	Etykieta klasy		int64	Znak bezpieczeństwa według złotego standardu, przyznany przez ekspertów.
bezpieczeństwo_złoty_powód	Tekst		smyczkowy	Powody (jeśli zostały podane) dla złotej etykiety bezpieczeństwa dostarczone przez ekspertów.

Przykłady ( tfds.as_dataframe ):

kostki/990

Opis konfiguracji : Zestaw danych 990 zawiera 990 rozmów ocenionych przez zróżnicowaną pulę 173 unikalnych osób oceniających. Każda rozmowa jest oceniana w trzech kategoriach bezpieczeństwa najwyższego poziomu i jednym pytaniu dotyczącym ogólnego zrozumienia rozmowy. Oceniających rekrutowano w taki sposób, aby liczba oceniających w każdej rozmowie była zrównoważona według płci (mężczyzna, kobieta) i regionu (Stany Zjednoczone, Indie). Każdy oceniający ocenił tylko próbkę rozmowy. Każda rozmowa ma 60–70 unikalnych ocen. Całkowita liczba wierszy w tym zbiorze danych wynosi 72103.
Rozmiar pobierania : 48.06 MiB
Rozmiar zbioru danych : 150.38 MiB
Automatyczne buforowanie ( dokumentacja ): Tylko wtedy, gdy shuffle_files=False (pociąg)
Podziały :

Podział	Przykłady
`'train'`	72103

Struktura funkcji :

FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
    'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
    'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształt	Typ D	Opis
	FunkcjeDykt
Q1_whole_conversation_evaluation	Etykieta klasy		int64	Ocena dotycząca zrozumiałości rozmowy.
Q2_harmful_content_explicitly_seksualny	Etykieta klasy		int64
Q2_harmful_content_financial_advice	Etykieta klasy		int64
Q2_harmful_content_harm_to_people_or_animals	Etykieta klasy		int64
Q2_harmful_content_health_and_safety_claims	Etykieta klasy		int64
Q2_harmful_content_how_tos_about_harmful_activities	Etykieta klasy		int64
Q2_harmful_content_obscenities_or_profanities	Etykieta klasy		int64
Q2_harmful_content_other	Etykieta klasy		int64
Q2_harmful_content_overall	Etykieta klasy		int64
Q2_harmful_content_personal_information	Etykieta klasy		int64
Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods	Etykieta klasy		int64
Q2_harmful_content_promotes_or_condones_violence	Etykieta klasy		int64
Q2_harmful_content_violent_or_gory	Etykieta klasy		int64
Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_powyżej	Etykieta klasy		int64
Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious	Etykieta klasy		int64
Q3_bias_incites_hatred	Etykieta klasy		int64
Q3_bias_insults_about_emocjonalna_romantyczna_and_lub_seksualna_atrakcyjność	Etykieta klasy		int64
Q3_bias_other	Etykieta klasy		int64
Q3_bias_fizycznie_lub_mentalnie_gorszy	Etykieta klasy		int64
Q3_bias_subhuman_comparisons	Etykieta klasy		int64
Q3_bias_superiority_or_subjugation_of_a_group	Etykieta klasy		int64
Q3_unfair_bias_overall	Etykieta klasy		int64
Q4_misinformation_conspiracy_theories	Etykieta klasy		int64
Q4_misinformation_contradicts_expert_consensus	Etykieta klasy		int64
Q4_misinformation_false_theories	Etykieta klasy		int64
Q4_dezinformacja_inne	Etykieta klasy		int64
Q4_misinformation_overall	Etykieta klasy		int64
Q4_misinformation_political	Etykieta klasy		int64
P_ogółem	Etykieta klasy		int64
kontekst	Tekst		smyczkowy	Rozmowa toczy się przed ostateczną odpowiedzią chatbota.
stopień_szkody	Etykieta klasy		int64	Odręcznie opisana ocena powagi ryzyka bezpieczeństwa.
typ_szkody	Sekwencja (etykieta klasy)	(Nic,)	int64	Temat(y) rozmowy dotyczące szkód z odręcznymi adnotacjami.
id	Skalarny		int64	Identyfikator liczbowy każdego wiersza reprezentujący wszystkie oceny wystawione przez jednego oceniającego w ramach jednej rozmowy.
identyfikator_przedmiotu	Skalarny		int64	Numeryczny identyfikator każdej rozmowy.
faza	Etykieta klasy		int64	Jeden z trzech różnych okresów.
oceniający_wiek	Etykieta klasy		int64	Grupa wiekowa oceniającego.
oceniający_edukacja	Etykieta klasy		int64	Edukacja oceniającego.
oceniający_płeć	Etykieta klasy		int64	Płeć oceniającego.
id oceniającego	Skalarny		int64	Numeryczny identyfikator każdego oceniającego.
oceniający_lokalizacja	Etykieta klasy		int64	Ustawienia regionalne osoby oceniającej.
oceniający_wyścig	Etykieta klasy		int64	Rasa/pochodzenie etniczne oceniającego.
oceniający_raw_race	Tekst		smyczkowy	Zgłoszona przez siebie, surowa rasa/pochodzenie etniczne oceniającego, przed uproszczeniem do pięciu kategorii.
odpowiedź	Tekst		smyczkowy	Ostateczna odpowiedź chatbota w rozmowie.

Przykłady ( tfds.as_dataframe ):