- Descrição :
Esta versão do conjunto de dados CivilComments fornece acesso aos sete rótulos primários que foram anotados pelos trabalhadores da multidão, a toxicidade e outras tags são um valor entre 0 e 1, indicando a fração de anotadores que atribuiu esses atributos ao texto do comentário.
As outras tags estão disponíveis apenas para uma fração dos exemplos de entrada. Eles são atualmente ignorados para o conjunto de dados principal; o conjunto CivilCommentsIdentities inclui esses rótulos, mas consiste apenas no subconjunto dos dados com eles. Os outros atributos que faziam parte da versão original do CivilComments são incluídos apenas nos dados brutos. Consulte a documentação do Kaggle para obter mais detalhes sobre os recursos disponíveis.
Os comentários neste conjunto de dados vêm de um arquivo da plataforma Civil Comments, um plugin de comentários para sites de notícias independentes. Esses comentários públicos foram criados de 2015 a 2017 e apareceram em aproximadamente 50 sites de notícias em inglês em todo o mundo. Quando o Civil Comments foi encerrado em 2017, eles optaram por disponibilizar os comentários públicos em um arquivo aberto duradouro para permitir pesquisas futuras. Os dados originais, publicados no figshare, incluem o texto do comentário público, alguns metadados associados, como IDs de artigos, IDs de publicação, timestamps e rótulos de "civilidade" gerados por comentaristas, mas não incluem IDs de usuários. Jigsaw ampliou esse conjunto de dados adicionando rótulos adicionais para toxicidade, menções de identidade, bem como ofensividade encoberta. Este conjunto de dados é uma réplica exata dos dados liberados para o desafio Jigsaw Unintended Bias in Toxicity Classification Kaggle. Este conjunto de dados é liberado sob CC0, assim como o texto do comentário subjacente.
Para comentários que têm um parent_id também nos dados de comentários civis, o texto do comentário anterior é fornecido como o recurso "parent_text". Observe que as divisões foram feitas sem levar em consideração essas informações, portanto, usar comentários anteriores pode vazar algumas informações. Os anotadores não tiveram acesso ao texto pai ao criar os rótulos.
Homepage : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data
Código-fonte :
tfds.text.CivilComments
Versões :
-
1.0.0
: versão completa inicial. -
1.0.1
: Adicionado um id único para cada comentário. -
1.1.0
: Adicionada configuração CivilCommentsCovert. -
1.1.1
: Adicionada configuração CivilCommentsCovert com soma de verificação correta. -
1.1.2
: Adicionada citação separada para o conjunto de dados CivilCommentsCovert. -
1.1.3
: Tipos de id corrigidos de float para string. -
1.2.0
: Adicione extensões tóxicas, contexto e recursos de texto de comentário pai. -
1.2.1
: Corrige a formatação incorreta nas divisões de contexto. -
1.2.2
: Atualização para refletir o contexto apenas com uma divisão de trem. -
1.2.3
: Adicionamos um aviso ao CivilCommentsCovert conforme corrigimos um problema de dados. -
1.2.4
(padrão): Adicionar IDs de publicação e carimbos de data/hora de comentários.
-
Tamanho do download :
427.41 MiB
Figura ( tfds.show_examples ): Não suportado.
civil_comments/CivilComments (configuração padrão)
Descrição da configuração : o CivilComments definido aqui inclui todos os dados, mas apenas os sete rótulos básicos (toxicidade, toxicidade_severa, obsceno, ameaça, insulto, ataque_de_identidade e explícito_sexual).
Tamanho do conjunto de dados :
1.54 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'test' | 97.320 |
'train' | 1.804.874 |
'validation' | 97.320 |
- Estrutura de recursos :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- Documentação do recurso :
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
artigo_id | tensor | int32 | ||
Data de criação | tensor | corda | ||
eu ia | tensor | corda | ||
Identity_attack | tensor | float32 | ||
insulto | tensor | float32 | ||
obsceno | tensor | float32 | ||
parent_id | tensor | int32 | ||
parent_text | Texto | corda | ||
id_publicação | tensor | corda | ||
toxicidade_grave | tensor | float32 | ||
sexual_explicit | tensor | float32 | ||
texto | Texto | corda | ||
ameaça | tensor | float32 | ||
toxicidade | tensor | float32 |
Chaves supervisionadas (consulte o documento
as_supervised
):('text', 'toxicity')
Exemplos ( tfds.as_dataframe ):
- Citação :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
civil_comments/CivilCommentsIdentities
Descrição da configuração : CivilCommentsIdentities definido aqui inclui um conjunto estendido de rótulos de identidade além dos sete rótulos básicos. No entanto, inclui apenas o subconjunto (aproximadamente um quarto) dos dados com todos esses recursos.
Tamanho do conjunto de dados :
654.97 MiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'test' | 21.577 |
'train' | 405.130 |
'validation' | 21.293 |
- Estrutura de recursos :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'created_date': string,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- Documentação do recurso :
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
artigo_id | tensor | int32 | ||
asiático | tensor | float32 | ||
ateu | tensor | float32 | ||
bissexual | tensor | float32 | ||
preto | tensor | float32 | ||
budista | tensor | float32 | ||
cristão | tensor | float32 | ||
Data de criação | tensor | corda | ||
fêmea | tensor | float32 | ||
heterossexual | tensor | float32 | ||
hindu | tensor | float32 | ||
homossexual_gay_ou_lésbica | tensor | float32 | ||
eu ia | tensor | corda | ||
Identity_attack | tensor | float32 | ||
insulto | tensor | float32 | ||
intelectual_ou_aprendizagem_deficiência | tensor | float32 | ||
judaico | tensor | float32 | ||
latino | tensor | float32 | ||
macho | tensor | float32 | ||
muçulmano | tensor | float32 | ||
obsceno | tensor | float32 | ||
outra_deficiência | tensor | float32 | ||
outro_gênero | tensor | float32 | ||
outra_raça_ou_etnia | tensor | float32 | ||
outra_religião | tensor | float32 | ||
outra_orientação_sexual | tensor | float32 | ||
parent_id | tensor | int32 | ||
parent_text | Texto | corda | ||
deficiência física | tensor | float32 | ||
doença_psiquiátrica_ou_mental_ | tensor | float32 | ||
id_publicação | tensor | corda | ||
toxicidade_grave | tensor | float32 | ||
sexual_explicit | tensor | float32 | ||
texto | Texto | corda | ||
ameaça | tensor | float32 | ||
toxicidade | tensor | float32 | ||
transexual | tensor | float32 | ||
branco | tensor | float32 |
Chaves supervisionadas (consulte o documento
as_supervised
):('text', 'toxicity')
Exemplos ( tfds.as_dataframe ):
- Citação :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
civil_comments/CivilCommentsCovert
- Descrição da configuração : AVISO: há um possível problema de qualidade de dados com CivilCommentsCovert que estamos trabalhando ativamente para corrigir (28/06/22); os dados subjacentes podem mudar!
O conjunto CivilCommentsCovert é um subconjunto de CivilCommentsIdentities com aproximadamente 20% das divisões de treinamento e teste anotadas para ofensividade oculta, além dos rótulos de toxicidade e identidade. Os avaliadores foram solicitados a categorizar os comentários como explicitamente, implicitamente, não ou não tenho certeza se ofensivos, bem como se continham diferentes tipos de ofensividade encoberta. O procedimento de anotação completo é detalhado em um documento futuro em https://sites.google.com/corp/view/hciandnlp/accepted-papers
Tamanho do conjunto de dados :
97.83 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 2.455 |
'train' | 48.074 |
- Estrutura de recursos :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'covert_emoticons_emojis': float32,
'covert_humor': float32,
'covert_masked_harm': float32,
'covert_microaggression': float32,
'covert_obfuscation': float32,
'covert_political': float32,
'covert_sarcasm': float32,
'created_date': string,
'explicitly_offensive': float32,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'implicitly_offensive': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'not_offensive': float32,
'not_sure_offensive': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- Documentação do recurso :
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
artigo_id | tensor | int32 | ||
asiático | tensor | float32 | ||
ateu | tensor | float32 | ||
bissexual | tensor | float32 | ||
preto | tensor | float32 | ||
budista | tensor | float32 | ||
cristão | tensor | float32 | ||
covert_emoticons_emojis | tensor | float32 | ||
humor_encoberto | tensor | float32 | ||
covert_masked_harm | tensor | float32 | ||
covert_microaggression | tensor | float32 | ||
encoberto_ofuscação | tensor | float32 | ||
covert_political | tensor | float32 | ||
disfarce_sarcasmo | tensor | float32 | ||
Data de criação | tensor | corda | ||
explicitamente_ofensivo | tensor | float32 | ||
fêmea | tensor | float32 | ||
heterossexual | tensor | float32 | ||
hindu | tensor | float32 | ||
homossexual_gay_ou_lésbica | tensor | float32 | ||
eu ia | tensor | corda | ||
Identity_attack | tensor | float32 | ||
implicitamente_ofensivo | tensor | float32 | ||
insulto | tensor | float32 | ||
intelectual_ou_aprendizagem_deficiência | tensor | float32 | ||
judaico | tensor | float32 | ||
latino | tensor | float32 | ||
macho | tensor | float32 | ||
muçulmano | tensor | float32 | ||
not_offensive | tensor | float32 | ||
not_sure_offensive | tensor | float32 | ||
obsceno | tensor | float32 | ||
outra_deficiência | tensor | float32 | ||
outro_gênero | tensor | float32 | ||
outra_raça_ou_etnia | tensor | float32 | ||
outra_religião | tensor | float32 | ||
outra_orientação_sexual | tensor | float32 | ||
parent_id | tensor | int32 | ||
parent_text | Texto | corda | ||
deficiência física | tensor | float32 | ||
doença_psiquiátrica_ou_mental_ | tensor | float32 | ||
id_publicação | tensor | corda | ||
toxicidade_grave | tensor | float32 | ||
sexual_explicit | tensor | float32 | ||
texto | Texto | corda | ||
ameaça | tensor | float32 | ||
toxicidade | tensor | float32 | ||
transexual | tensor | float32 | ||
branco | tensor | float32 |
Chaves supervisionadas (consulte o documento
as_supervised
):('text', 'toxicity')
Exemplos ( tfds.as_dataframe ):
- Citação :
@inproceedings{lees-etal-2021-capturing,
title = "Capturing Covertly Toxic Speech via Crowdsourcing",
author = "Lees, Alyssa and
Borkan, Daniel and
Kivlichan, Ian and
Nario, Jorge and
Goyal, Tesh",
booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
month = apr,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
pages = "14--20"
}
civil_comments/CivilCommentsToxicSpans
Descrição da configuração : Os CivilComments Toxic Spans são um subconjunto de CivilComments rotulados no nível do span - os índices de todos os limites de caracteres (pontos de código Unicode) que foram marcados como tóxicos pela maioria dos anotadores são retornados em um recurso de 'spans'.
Tamanho do conjunto de dados :
5.81 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 2.000 |
'train' | 7.939 |
'validation' | 682 |
- Estrutura de recursos :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'spans': Tensor(shape=(None,), dtype=int32),
'text': Text(shape=(), dtype=string),
})
- Documentação do recurso :
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
artigo_id | tensor | int32 | ||
Data de criação | tensor | corda | ||
eu ia | tensor | corda | ||
parent_id | tensor | int32 | ||
parent_text | Texto | corda | ||
id_publicação | tensor | corda | ||
vãos | tensor | (Nenhum,) | int32 | |
texto | Texto | corda |
Chaves supervisionadas (consulte o documento
as_supervised
):('text', 'spans')
Exemplos ( tfds.as_dataframe ):
- Citação :
@inproceedings{pavlopoulos-etal-2021-semeval,
title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
author = "Pavlopoulos, John and Sorensen, Jeffrey and Laugier, L{'e}o and Androutsopoulos, Ion",
booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.semeval-1.6",
doi = "10.18653/v1/2021.semeval-1.6",
pages = "59--69",
}
civil_comments/CivilCommentsInContext
Descrição da configuração : O CivilComments in Context é um subconjunto de CivilComments que foi rotulado disponibilizando aos rotuladores o parent_text. Ele inclui um recurso contextual_toxicity.
Tamanho do conjunto de dados :
9.63 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 9.969 |
- Estrutura de recursos :
FeaturesDict({
'article_id': int32,
'contextual_toxicity': float32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- Documentação do recurso :
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
artigo_id | tensor | int32 | ||
contextual_toxicidade | tensor | float32 | ||
Data de criação | tensor | corda | ||
eu ia | tensor | corda | ||
Identity_attack | tensor | float32 | ||
insulto | tensor | float32 | ||
obsceno | tensor | float32 | ||
parent_id | tensor | int32 | ||
parent_text | Texto | corda | ||
id_publicação | tensor | corda | ||
toxicidade_grave | tensor | float32 | ||
sexual_explicit | tensor | float32 | ||
texto | Texto | corda | ||
ameaça | tensor | float32 | ||
toxicidade | tensor | float32 |
Chaves supervisionadas (consulte o documento
as_supervised
):('text', 'toxicity')
Exemplos ( tfds.as_dataframe ):
- Citação :
@misc{pavlopoulos2020toxicity,
title={Toxicity Detection: Does Context Really Matter?},
author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}