cywilne_komentarze

  • opis :

Ta wersja zestawu danych CivilComments zapewnia dostęp do siedmiu głównych etykiet, które zostały opatrzone adnotacjami przez pracowników społecznościowych. Toksyczność i inne znaczniki mają wartość z zakresu od 0 do 1, co wskazuje, jaka część adnotatorów przypisała te atrybuty do tekstu komentarza.

Pozostałe znaczniki są dostępne tylko dla części przykładów wejściowych. Obecnie są one ignorowane w głównym zbiorze danych; zestaw CivilCommentsIdentities zawiera te etykiety, ale składa się tylko z podzbioru danych wraz z nimi. Inne atrybuty, które były częścią oryginalnej wersji programu CivilComments, są uwzględniane tylko w surowych danych. Zobacz dokumentację Kaggle, aby uzyskać więcej informacji na temat dostępnych funkcji.

Komentarze w tym zbiorze danych pochodzą z archiwum platformy Civil Comments, wtyczki komentującej dla niezależnych serwisów informacyjnych. Te publiczne komentarze powstały w latach 2015-2017 i pojawiły się w około 50 anglojęzycznych serwisach informacyjnych na całym świecie. Kiedy Civil Comments zostało zamknięte w 2017 roku, postanowili udostępnić komentarze publiczne w trwałym otwartym archiwum, aby umożliwić przyszłe badania. Oryginalne dane, opublikowane na figshare, obejmują tekst publicznego komentarza, niektóre powiązane metadane, takie jak identyfikatory artykułów, identyfikatory publikacji, znaczniki czasu i etykiety „uprzejmości” generowane przez komentatorów, ale nie zawierają identyfikatorów użytkowników. Jigsaw rozszerzył ten zestaw danych, dodając dodatkowe etykiety toksyczności, wzmianek o tożsamości, a także ukrytej obraźliwości. Ten zestaw danych jest dokładną repliką danych opublikowanych w ramach wyzwania Jigsaw Unintended Bias in Toxicity Classification Kaggle. Ten zestaw danych jest udostępniany na licencji CC0, podobnie jak tekst komentarza.

W przypadku komentarzy, które mają parametr parent_id również w danych komentarzy cywilnych, tekst poprzedniego komentarza jest udostępniany jako funkcja „parent_text”. Zwróć uwagę, że podziały zostały dokonane bez uwzględnienia tych informacji, więc korzystanie z poprzednich komentarzy może spowodować wyciek niektórych informacji. Adnotatorzy nie mieli dostępu do tekstu nadrzędnego podczas tworzenia etykiet.

  • Strona główna : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data

  • Kod źródłowy : tfds.text.CivilComments

  • Wersje :

    • 1.0.0 : Początkowa pełna wersja.
    • 1.0.1 : Dodano unikalny identyfikator dla każdego komentarza.
    • 1.1.0 : Dodano konfigurację CivilCommentsCovert.
    • 1.1.1 : Dodano konfigurację CivilCommentsCovert z poprawną sumą kontrolną.
    • 1.1.2 : Dodano osobny cytat dla zestawu danych CivilCommentsCovert.
    • 1.1.3 : Poprawiono typy id z float na string.
    • 1.2.0 : Dodaj toksyczne rozpiętości, kontekst i funkcje tekstu komentarzy nadrzędnych.
    • 1.2.1 : Napraw nieprawidłowe formatowanie w podziale kontekstu.
    • 1.2.2 : Aktualizacja, aby odzwierciedlić kontekst tylko z podziałem pociągów.
    • 1.2.3 : Dodaj ostrzeżenie do CivilCommentsCovert, gdy naprawimy problem z danymi.
    • 1.2.4 (domyślnie): Dodaj identyfikatory publikacji i znaczniki czasu komentarzy.
  • Rozmiar pliku do pobrania : 427.41 MiB

  • Rysunek ( tfds.show_examples ): Nieobsługiwany.

civil_comments/CivilComments (domyślna konfiguracja)

  • Opis konfiguracji : zestaw CivilComments zawiera wszystkie dane, ale tylko siedem podstawowych etykiet (toksyczność, poważna_toksyczność, nieprzyzwoitość, groźba, zniewaga, atak_na tożsamość i wyraźna seksualność).

  • Rozmiar zestawu danych : 1.54 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 97320
'train' 1 804 874
'validation' 97320
  • Struktura funkcji :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
identyfikator_artykułu Napinacz int32
stworz Date Napinacz strunowy
ID Napinacz strunowy
atak_na tożsamość Napinacz pływak32
znieważenie Napinacz pływak32
nieprzyzwoity Napinacz pływak32
ID rodzica Napinacz int32
tekst_nadrzędny Tekst strunowy
identyfikator_publikacji Napinacz strunowy
ciężka_toksyczność Napinacz pływak32
seksualne_wyraźne Napinacz pływak32
tekst Tekst strunowy
zagrożenie Napinacz pływak32
toksyczność Napinacz pływak32
  • Cytat :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments/CivilCommentsIdentities

  • Opis konfiguracji : zestaw CivilCommentsIdentities zawiera rozszerzony zestaw etykiet identyfikacyjnych oprócz siedmiu podstawowych etykiet. Obejmuje jednak tylko podzbiór (mniej więcej jedną czwartą) danych ze wszystkimi tymi cechami.

  • Rozmiar zestawu danych : 654.97 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 21577
'train' 405130
'validation' 21293
  • Struktura funkcji :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'created_date': string,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
identyfikator_artykułu Napinacz int32
azjatycki Napinacz pływak32
ateista Napinacz pływak32
biseksualny Napinacz pływak32
czarny Napinacz pływak32
buddyjski Napinacz pływak32
chrześcijanin Napinacz pływak32
stworz Date Napinacz strunowy
Kobieta Napinacz pływak32
heteroseksualny Napinacz pływak32
Hindus Napinacz pływak32
homoseksualny_gej_lub_lesbijka Napinacz pływak32
ID Napinacz strunowy
atak_na tożsamość Napinacz pływak32
znieważenie Napinacz pływak32
niepełnosprawność_intelektualna_lub_uczenie się Napinacz pływak32
żydowski Napinacz pływak32
latynos Napinacz pływak32
Mężczyzna Napinacz pływak32
muzułmański Napinacz pływak32
nieprzyzwoity Napinacz pływak32
inna_niepełnosprawność Napinacz pływak32
inna_płeć Napinacz pływak32
inna_rasa_lub_pochodzenie etniczne Napinacz pływak32
inna_religia Napinacz pływak32
inna_orientacja_seksualna Napinacz pływak32
ID rodzica Napinacz int32
tekst_nadrzędny Tekst strunowy
kalectwo fizyczne Napinacz pływak32
choroba_psychiatryczna_lub_umysłowa Napinacz pływak32
identyfikator_publikacji Napinacz strunowy
ciężka_toksyczność Napinacz pływak32
seksualne_wyraźne Napinacz pływak32
tekst Tekst strunowy
zagrożenie Napinacz pływak32
toksyczność Napinacz pływak32
transpłciowy Napinacz pływak32
biały Napinacz pływak32
  • Cytat :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments/CivilCommentsCovert

  • Opis konfiguracji : OSTRZEŻENIE: istnieje potencjalny problem z jakością danych w CivilCommentsCovert, nad którym aktywnie pracujemy (28.06.22); podstawowe dane mogą ulec zmianie!

Zestaw CivilCommentsCovert jest podzbiorem CivilCommentsIdentities z ok. 20% podziałów pociągów i testów dodatkowo opatrzonych adnotacjami pod kątem ukrytej obraźliwości, oprócz etykiet toksyczności i tożsamości. Oceniających poproszono o kategoryzowanie komentarzy jako jawnie, pośrednio, nie lub niepewnie, czy są obraźliwe, a także czy zawierają różne rodzaje ukrytej obraźliwości. Pełna procedura adnotacji jest szczegółowo opisana w dokumencie, który ma się ukazać na stronie https://sites.google.com/corp/view/hciandnlp/accepted-papers

  • Rozmiar zestawu danych : 97.83 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Podział Przykłady
'test' 2455
'train' 48074
  • Struktura funkcji :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'covert_emoticons_emojis': float32,
    'covert_humor': float32,
    'covert_masked_harm': float32,
    'covert_microaggression': float32,
    'covert_obfuscation': float32,
    'covert_political': float32,
    'covert_sarcasm': float32,
    'created_date': string,
    'explicitly_offensive': float32,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'implicitly_offensive': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'not_offensive': float32,
    'not_sure_offensive': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
identyfikator_artykułu Napinacz int32
azjatycki Napinacz pływak32
ateista Napinacz pływak32
biseksualny Napinacz pływak32
czarny Napinacz pływak32
buddyjski Napinacz pływak32
chrześcijanin Napinacz pływak32
ukryte_emotikony_emotikony Napinacz pływak32
ukryty_humor Napinacz pływak32
ukryta_zamaskowana_szkoda Napinacz pływak32
ukryta_mikroagresja Napinacz pływak32
ukryte_zaciemnianie Napinacz pływak32
tajne_polityczne Napinacz pływak32
ukryty_sarkazm Napinacz pływak32
stworz Date Napinacz strunowy
jawnie_obraźliwe Napinacz pływak32
Kobieta Napinacz pływak32
heteroseksualny Napinacz pływak32
Hindus Napinacz pływak32
homoseksualny_gej_lub_lesbijka Napinacz pływak32
ID Napinacz strunowy
atak_na tożsamość Napinacz pływak32
implicitly_obraźliwe Napinacz pływak32
znieważenie Napinacz pływak32
niepełnosprawność_intelektualna_lub_uczenie się Napinacz pływak32
żydowski Napinacz pływak32
latynos Napinacz pływak32
Mężczyzna Napinacz pływak32
muzułmański Napinacz pływak32
nie_obraźliwe Napinacz pływak32
nie_pewnie_obraźliwe Napinacz pływak32
nieprzyzwoity Napinacz pływak32
inna_niepełnosprawność Napinacz pływak32
inna_płeć Napinacz pływak32
inna_rasa_lub_pochodzenie etniczne Napinacz pływak32
inna_religia Napinacz pływak32
inna_orientacja_seksualna Napinacz pływak32
ID rodzica Napinacz int32
tekst_nadrzędny Tekst strunowy
kalectwo fizyczne Napinacz pływak32
choroba_psychiatryczna_lub_umysłowa Napinacz pływak32
identyfikator_publikacji Napinacz strunowy
ciężka_toksyczność Napinacz pływak32
seksualne_wyraźne Napinacz pływak32
tekst Tekst strunowy
zagrożenie Napinacz pływak32
toksyczność Napinacz pływak32
transpłciowy Napinacz pływak32
biały Napinacz pływak32
  • Cytat :
@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}

civil_comments/CivilCommentsToxicSpans

  • Opis konfiguracji : Toksyczne rozpiętości CivilComments są podzbiorem CivilComments oznaczonym na poziomie rozpiętości — indeksy wszystkich granic znaków (punktów kodowych Unicode), które zostały oznaczone jako toksyczne przez większość adnotatorów, są zwracane w funkcji „rozpiętości”.

  • Rozmiar zestawu danych : 5.81 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Podział Przykłady
'test' 2000
'train' 7939
'validation' 682
  • Struktura funkcji :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'spans': Tensor(shape=(None,), dtype=int32),
    'text': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
identyfikator_artykułu Napinacz int32
stworz Date Napinacz strunowy
ID Napinacz strunowy
ID rodzica Napinacz int32
tekst_nadrzędny Tekst strunowy
identyfikator_publikacji Napinacz strunowy
rozpiętości Napinacz (Nic,) int32
tekst Tekst strunowy
  • Cytat :
@inproceedings{pavlopoulos-etal-2021-semeval,
    title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
    author = "Pavlopoulos, John  and Sorensen, Jeffrey  and Laugier, L{'e}o and Androutsopoulos, Ion",
    booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.semeval-1.6",
    doi = "10.18653/v1/2021.semeval-1.6",
    pages = "59--69",
}

civil_comments/CivilCommentsInContext

  • Opis konfiguracji : CivilComments in Context jest podzbiorem CivilComments, który został oznaczony etykietą poprzez udostępnienie osobom zajmującym się etykietowaniem elementu parent_text. Zawiera funkcję contextual_toxicity.

  • Rozmiar zestawu danych : 9.63 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Podział Przykłady
'train' 9969
  • Struktura funkcji :
FeaturesDict({
    'article_id': int32,
    'contextual_toxicity': float32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
identyfikator_artykułu Napinacz int32
kontekstowa_toksyczność Napinacz pływak32
stworz Date Napinacz strunowy
ID Napinacz strunowy
atak_na tożsamość Napinacz pływak32
znieważenie Napinacz pływak32
nieprzyzwoity Napinacz pływak32
ID rodzica Napinacz int32
tekst_nadrzędny Tekst strunowy
identyfikator_publikacji Napinacz strunowy
ciężka_toksyczność Napinacz pływak32
seksualne_wyraźne Napinacz pływak32
tekst Tekst strunowy
zagrożenie Napinacz pływak32
toksyczność Napinacz pływak32
  • Cytat :
@misc{pavlopoulos2020toxicity,
    title={Toxicity Detection: Does Context Really Matter?},
    author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
    year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}