- opis :
Ta wersja zestawu danych CivilComments zapewnia dostęp do siedmiu głównych etykiet, które zostały opatrzone adnotacjami przez pracowników społecznościowych. Toksyczność i inne znaczniki mają wartość z zakresu od 0 do 1, co wskazuje, jaka część adnotatorów przypisała te atrybuty do tekstu komentarza.
Pozostałe znaczniki są dostępne tylko dla części przykładów wejściowych. Obecnie są one ignorowane w głównym zbiorze danych; zestaw CivilCommentsIdentities zawiera te etykiety, ale składa się tylko z podzbioru danych wraz z nimi. Inne atrybuty, które były częścią oryginalnej wersji programu CivilComments, są uwzględniane tylko w surowych danych. Zobacz dokumentację Kaggle, aby uzyskać więcej informacji na temat dostępnych funkcji.
Komentarze w tym zbiorze danych pochodzą z archiwum platformy Civil Comments, wtyczki komentującej dla niezależnych serwisów informacyjnych. Te publiczne komentarze powstały w latach 2015-2017 i pojawiły się w około 50 anglojęzycznych serwisach informacyjnych na całym świecie. Kiedy Civil Comments zostało zamknięte w 2017 roku, postanowili udostępnić komentarze publiczne w trwałym otwartym archiwum, aby umożliwić przyszłe badania. Oryginalne dane, opublikowane na figshare, obejmują tekst publicznego komentarza, niektóre powiązane metadane, takie jak identyfikatory artykułów, identyfikatory publikacji, znaczniki czasu i etykiety „uprzejmości” generowane przez komentatorów, ale nie zawierają identyfikatorów użytkowników. Jigsaw rozszerzył ten zestaw danych, dodając dodatkowe etykiety toksyczności, wzmianek o tożsamości, a także ukrytej obraźliwości. Ten zestaw danych jest dokładną repliką danych opublikowanych w ramach wyzwania Jigsaw Unintended Bias in Toxicity Classification Kaggle. Ten zestaw danych jest udostępniany na licencji CC0, podobnie jak tekst komentarza.
W przypadku komentarzy, które mają parametr parent_id również w danych komentarzy cywilnych, tekst poprzedniego komentarza jest udostępniany jako funkcja „parent_text”. Zwróć uwagę, że podziały zostały dokonane bez uwzględnienia tych informacji, więc korzystanie z poprzednich komentarzy może spowodować wyciek niektórych informacji. Adnotatorzy nie mieli dostępu do tekstu nadrzędnego podczas tworzenia etykiet.
Strona główna : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data
Kod źródłowy :
tfds.text.CivilComments
Wersje :
-
1.0.0
: Początkowa pełna wersja. -
1.0.1
: Dodano unikalny identyfikator dla każdego komentarza. -
1.1.0
: Dodano konfigurację CivilCommentsCovert. -
1.1.1
: Dodano konfigurację CivilCommentsCovert z poprawną sumą kontrolną. -
1.1.2
: Dodano osobny cytat dla zestawu danych CivilCommentsCovert. -
1.1.3
: Poprawiono typy id z float na string. -
1.2.0
: Dodaj toksyczne rozpiętości, kontekst i funkcje tekstu komentarzy nadrzędnych. -
1.2.1
: Napraw nieprawidłowe formatowanie w podziale kontekstu. -
1.2.2
: Aktualizacja, aby odzwierciedlić kontekst tylko z podziałem pociągów. -
1.2.3
: Dodaj ostrzeżenie do CivilCommentsCovert, gdy naprawimy problem z danymi. -
1.2.4
(domyślnie): Dodaj identyfikatory publikacji i znaczniki czasu komentarzy.
-
Rozmiar pliku do pobrania :
427.41 MiB
Rysunek ( tfds.show_examples ): Nieobsługiwany.
civil_comments/CivilComments (domyślna konfiguracja)
Opis konfiguracji : zestaw CivilComments zawiera wszystkie dane, ale tylko siedem podstawowych etykiet (toksyczność, poważna_toksyczność, nieprzyzwoitość, groźba, zniewaga, atak_na tożsamość i wyraźna seksualność).
Rozmiar zestawu danych :
1.54 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 97320 |
'train' | 1 804 874 |
'validation' | 97320 |
- Struktura funkcji :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
identyfikator_artykułu | Napinacz | int32 | ||
stworz Date | Napinacz | strunowy | ||
ID | Napinacz | strunowy | ||
atak_na tożsamość | Napinacz | pływak32 | ||
znieważenie | Napinacz | pływak32 | ||
nieprzyzwoity | Napinacz | pływak32 | ||
ID rodzica | Napinacz | int32 | ||
tekst_nadrzędny | Tekst | strunowy | ||
identyfikator_publikacji | Napinacz | strunowy | ||
ciężka_toksyczność | Napinacz | pływak32 | ||
seksualne_wyraźne | Napinacz | pływak32 | ||
tekst | Tekst | strunowy | ||
zagrożenie | Napinacz | pływak32 | ||
toksyczność | Napinacz | pływak32 |
Nadzorowane klucze (patrz
as_supervised
doc ):('text', 'toxicity')
Przykłady ( tfds.as_dataframe ):
- Cytat :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
civil_comments/CivilCommentsIdentities
Opis konfiguracji : zestaw CivilCommentsIdentities zawiera rozszerzony zestaw etykiet identyfikacyjnych oprócz siedmiu podstawowych etykiet. Obejmuje jednak tylko podzbiór (mniej więcej jedną czwartą) danych ze wszystkimi tymi cechami.
Rozmiar zestawu danych :
654.97 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 21577 |
'train' | 405130 |
'validation' | 21293 |
- Struktura funkcji :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'created_date': string,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
identyfikator_artykułu | Napinacz | int32 | ||
azjatycki | Napinacz | pływak32 | ||
ateista | Napinacz | pływak32 | ||
biseksualny | Napinacz | pływak32 | ||
czarny | Napinacz | pływak32 | ||
buddyjski | Napinacz | pływak32 | ||
chrześcijanin | Napinacz | pływak32 | ||
stworz Date | Napinacz | strunowy | ||
Kobieta | Napinacz | pływak32 | ||
heteroseksualny | Napinacz | pływak32 | ||
Hindus | Napinacz | pływak32 | ||
homoseksualny_gej_lub_lesbijka | Napinacz | pływak32 | ||
ID | Napinacz | strunowy | ||
atak_na tożsamość | Napinacz | pływak32 | ||
znieważenie | Napinacz | pływak32 | ||
niepełnosprawność_intelektualna_lub_uczenie się | Napinacz | pływak32 | ||
żydowski | Napinacz | pływak32 | ||
latynos | Napinacz | pływak32 | ||
Mężczyzna | Napinacz | pływak32 | ||
muzułmański | Napinacz | pływak32 | ||
nieprzyzwoity | Napinacz | pływak32 | ||
inna_niepełnosprawność | Napinacz | pływak32 | ||
inna_płeć | Napinacz | pływak32 | ||
inna_rasa_lub_pochodzenie etniczne | Napinacz | pływak32 | ||
inna_religia | Napinacz | pływak32 | ||
inna_orientacja_seksualna | Napinacz | pływak32 | ||
ID rodzica | Napinacz | int32 | ||
tekst_nadrzędny | Tekst | strunowy | ||
kalectwo fizyczne | Napinacz | pływak32 | ||
choroba_psychiatryczna_lub_umysłowa | Napinacz | pływak32 | ||
identyfikator_publikacji | Napinacz | strunowy | ||
ciężka_toksyczność | Napinacz | pływak32 | ||
seksualne_wyraźne | Napinacz | pływak32 | ||
tekst | Tekst | strunowy | ||
zagrożenie | Napinacz | pływak32 | ||
toksyczność | Napinacz | pływak32 | ||
transpłciowy | Napinacz | pływak32 | ||
biały | Napinacz | pływak32 |
Nadzorowane klucze (patrz
as_supervised
doc ):('text', 'toxicity')
Przykłady ( tfds.as_dataframe ):
- Cytat :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
civil_comments/CivilCommentsCovert
- Opis konfiguracji : OSTRZEŻENIE: istnieje potencjalny problem z jakością danych w CivilCommentsCovert, nad którym aktywnie pracujemy (28.06.22); podstawowe dane mogą ulec zmianie!
Zestaw CivilCommentsCovert jest podzbiorem CivilCommentsIdentities z ok. 20% podziałów pociągów i testów dodatkowo opatrzonych adnotacjami pod kątem ukrytej obraźliwości, oprócz etykiet toksyczności i tożsamości. Oceniających poproszono o kategoryzowanie komentarzy jako jawnie, pośrednio, nie lub niepewnie, czy są obraźliwe, a także czy zawierają różne rodzaje ukrytej obraźliwości. Pełna procedura adnotacji jest szczegółowo opisana w dokumencie, który ma się ukazać na stronie https://sites.google.com/corp/view/hciandnlp/accepted-papers
Rozmiar zestawu danych :
97.83 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Podział | Przykłady |
---|---|
'test' | 2455 |
'train' | 48074 |
- Struktura funkcji :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'covert_emoticons_emojis': float32,
'covert_humor': float32,
'covert_masked_harm': float32,
'covert_microaggression': float32,
'covert_obfuscation': float32,
'covert_political': float32,
'covert_sarcasm': float32,
'created_date': string,
'explicitly_offensive': float32,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'implicitly_offensive': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'not_offensive': float32,
'not_sure_offensive': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
identyfikator_artykułu | Napinacz | int32 | ||
azjatycki | Napinacz | pływak32 | ||
ateista | Napinacz | pływak32 | ||
biseksualny | Napinacz | pływak32 | ||
czarny | Napinacz | pływak32 | ||
buddyjski | Napinacz | pływak32 | ||
chrześcijanin | Napinacz | pływak32 | ||
ukryte_emotikony_emotikony | Napinacz | pływak32 | ||
ukryty_humor | Napinacz | pływak32 | ||
ukryta_zamaskowana_szkoda | Napinacz | pływak32 | ||
ukryta_mikroagresja | Napinacz | pływak32 | ||
ukryte_zaciemnianie | Napinacz | pływak32 | ||
tajne_polityczne | Napinacz | pływak32 | ||
ukryty_sarkazm | Napinacz | pływak32 | ||
stworz Date | Napinacz | strunowy | ||
jawnie_obraźliwe | Napinacz | pływak32 | ||
Kobieta | Napinacz | pływak32 | ||
heteroseksualny | Napinacz | pływak32 | ||
Hindus | Napinacz | pływak32 | ||
homoseksualny_gej_lub_lesbijka | Napinacz | pływak32 | ||
ID | Napinacz | strunowy | ||
atak_na tożsamość | Napinacz | pływak32 | ||
implicitly_obraźliwe | Napinacz | pływak32 | ||
znieważenie | Napinacz | pływak32 | ||
niepełnosprawność_intelektualna_lub_uczenie się | Napinacz | pływak32 | ||
żydowski | Napinacz | pływak32 | ||
latynos | Napinacz | pływak32 | ||
Mężczyzna | Napinacz | pływak32 | ||
muzułmański | Napinacz | pływak32 | ||
nie_obraźliwe | Napinacz | pływak32 | ||
nie_pewnie_obraźliwe | Napinacz | pływak32 | ||
nieprzyzwoity | Napinacz | pływak32 | ||
inna_niepełnosprawność | Napinacz | pływak32 | ||
inna_płeć | Napinacz | pływak32 | ||
inna_rasa_lub_pochodzenie etniczne | Napinacz | pływak32 | ||
inna_religia | Napinacz | pływak32 | ||
inna_orientacja_seksualna | Napinacz | pływak32 | ||
ID rodzica | Napinacz | int32 | ||
tekst_nadrzędny | Tekst | strunowy | ||
kalectwo fizyczne | Napinacz | pływak32 | ||
choroba_psychiatryczna_lub_umysłowa | Napinacz | pływak32 | ||
identyfikator_publikacji | Napinacz | strunowy | ||
ciężka_toksyczność | Napinacz | pływak32 | ||
seksualne_wyraźne | Napinacz | pływak32 | ||
tekst | Tekst | strunowy | ||
zagrożenie | Napinacz | pływak32 | ||
toksyczność | Napinacz | pływak32 | ||
transpłciowy | Napinacz | pływak32 | ||
biały | Napinacz | pływak32 |
Nadzorowane klucze (patrz
as_supervised
doc ):('text', 'toxicity')
Przykłady ( tfds.as_dataframe ):
- Cytat :
@inproceedings{lees-etal-2021-capturing,
title = "Capturing Covertly Toxic Speech via Crowdsourcing",
author = "Lees, Alyssa and
Borkan, Daniel and
Kivlichan, Ian and
Nario, Jorge and
Goyal, Tesh",
booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
month = apr,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
pages = "14--20"
}
civil_comments/CivilCommentsToxicSpans
Opis konfiguracji : Toksyczne rozpiętości CivilComments są podzbiorem CivilComments oznaczonym na poziomie rozpiętości — indeksy wszystkich granic znaków (punktów kodowych Unicode), które zostały oznaczone jako toksyczne przez większość adnotatorów, są zwracane w funkcji „rozpiętości”.
Rozmiar zestawu danych :
5.81 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Podział | Przykłady |
---|---|
'test' | 2000 |
'train' | 7939 |
'validation' | 682 |
- Struktura funkcji :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'spans': Tensor(shape=(None,), dtype=int32),
'text': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
identyfikator_artykułu | Napinacz | int32 | ||
stworz Date | Napinacz | strunowy | ||
ID | Napinacz | strunowy | ||
ID rodzica | Napinacz | int32 | ||
tekst_nadrzędny | Tekst | strunowy | ||
identyfikator_publikacji | Napinacz | strunowy | ||
rozpiętości | Napinacz | (Nic,) | int32 | |
tekst | Tekst | strunowy |
Klucze nadzorowane (zobacz dokument
as_supervised
):('text', 'spans')
Przykłady ( tfds.as_dataframe ):
- Cytat :
@inproceedings{pavlopoulos-etal-2021-semeval,
title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
author = "Pavlopoulos, John and Sorensen, Jeffrey and Laugier, L{'e}o and Androutsopoulos, Ion",
booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.semeval-1.6",
doi = "10.18653/v1/2021.semeval-1.6",
pages = "59--69",
}
civil_comments/CivilCommentsInContext
Opis konfiguracji : CivilComments in Context jest podzbiorem CivilComments, który został oznaczony etykietą poprzez udostępnienie osobom zajmującym się etykietowaniem elementu parent_text. Zawiera funkcję contextual_toxicity.
Rozmiar zestawu danych :
9.63 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Podział | Przykłady |
---|---|
'train' | 9969 |
- Struktura funkcji :
FeaturesDict({
'article_id': int32,
'contextual_toxicity': float32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
identyfikator_artykułu | Napinacz | int32 | ||
kontekstowa_toksyczność | Napinacz | pływak32 | ||
stworz Date | Napinacz | strunowy | ||
ID | Napinacz | strunowy | ||
atak_na tożsamość | Napinacz | pływak32 | ||
znieważenie | Napinacz | pływak32 | ||
nieprzyzwoity | Napinacz | pływak32 | ||
ID rodzica | Napinacz | int32 | ||
tekst_nadrzędny | Tekst | strunowy | ||
identyfikator_publikacji | Napinacz | strunowy | ||
ciężka_toksyczność | Napinacz | pływak32 | ||
seksualne_wyraźne | Napinacz | pływak32 | ||
tekst | Tekst | strunowy | ||
zagrożenie | Napinacz | pływak32 | ||
toksyczność | Napinacz | pływak32 |
Nadzorowane klucze (patrz
as_supervised
doc ):('text', 'toxicity')
Przykłady ( tfds.as_dataframe ):
- Cytat :
@misc{pavlopoulos2020toxicity,
title={Toxicity Detection: Does Context Really Matter?},
author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}