civil_comments

  • Descrição :

Esta versão do conjunto de dados CivilComments fornece acesso aos sete rótulos primários que foram anotados pelos trabalhadores da multidão, a toxicidade e outras tags são um valor entre 0 e 1, indicando a fração de anotadores que atribuiu esses atributos ao texto do comentário.

As outras tags estão disponíveis apenas para uma fração dos exemplos de entrada. Eles são atualmente ignorados para o conjunto de dados principal; o conjunto CivilCommentsIdentities inclui esses rótulos, mas consiste apenas no subconjunto dos dados com eles. Os outros atributos que faziam parte da versão original do CivilComments são incluídos apenas nos dados brutos. Consulte a documentação do Kaggle para obter mais detalhes sobre os recursos disponíveis.

Os comentários neste conjunto de dados vêm de um arquivo da plataforma Civil Comments, um plugin de comentários para sites de notícias independentes. Esses comentários públicos foram criados de 2015 a 2017 e apareceram em aproximadamente 50 sites de notícias em inglês em todo o mundo. Quando o Civil Comments foi encerrado em 2017, eles optaram por disponibilizar os comentários públicos em um arquivo aberto duradouro para permitir pesquisas futuras. Os dados originais, publicados no figshare, incluem o texto do comentário público, alguns metadados associados, como IDs de artigos, IDs de publicação, timestamps e rótulos de "civilidade" gerados por comentaristas, mas não incluem IDs de usuários. Jigsaw ampliou esse conjunto de dados adicionando rótulos adicionais para toxicidade, menções de identidade, bem como ofensividade encoberta. Este conjunto de dados é uma réplica exata dos dados liberados para o desafio Jigsaw Unintended Bias in Toxicity Classification Kaggle. Este conjunto de dados é liberado sob CC0, assim como o texto do comentário subjacente.

Para comentários que têm um parent_id também nos dados de comentários civis, o texto do comentário anterior é fornecido como o recurso "parent_text". Observe que as divisões foram feitas sem levar em consideração essas informações, portanto, usar comentários anteriores pode vazar algumas informações. Os anotadores não tiveram acesso ao texto pai ao criar os rótulos.

  • Homepage : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data

  • Código-fonte : tfds.text.CivilComments

  • Versões :

    • 1.0.0 : versão completa inicial.
    • 1.0.1 : Adicionado um id único para cada comentário.
    • 1.1.0 : Adicionada configuração CivilCommentsCovert.
    • 1.1.1 : Adicionada configuração CivilCommentsCovert com soma de verificação correta.
    • 1.1.2 : Adicionada citação separada para o conjunto de dados CivilCommentsCovert.
    • 1.1.3 : Tipos de id corrigidos de float para string.
    • 1.2.0 : Adicione extensões tóxicas, contexto e recursos de texto de comentário pai.
    • 1.2.1 : Corrige a formatação incorreta nas divisões de contexto.
    • 1.2.2 : Atualização para refletir o contexto apenas com uma divisão de trem.
    • 1.2.3 : Adicionamos um aviso ao CivilCommentsCovert conforme corrigimos um problema de dados.
    • 1.2.4 (padrão): Adicionar IDs de publicação e carimbos de data/hora de comentários.
  • Tamanho do download : 427.41 MiB

  • Figura ( tfds.show_examples ): Não suportado.

civil_comments/CivilComments (configuração padrão)

  • Descrição da configuração : o CivilComments definido aqui inclui todos os dados, mas apenas os sete rótulos básicos (toxicidade, toxicidade_severa, obsceno, ameaça, insulto, ataque_de_identidade e explícito_sexual).

  • Tamanho do conjunto de dados : 1.54 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'test' 97.320
'train' 1.804.874
'validation' 97.320
  • Estrutura de recursos :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • Documentação do recurso :
Recurso Aula Forma Tipo D Descrição
RecursosDict
artigo_id tensor int32
Data de criação tensor corda
eu ia tensor corda
Identity_attack tensor float32
insulto tensor float32
obsceno tensor float32
parent_id tensor int32
parent_text Texto corda
id_publicação tensor corda
toxicidade_grave tensor float32
sexual_explicit tensor float32
texto Texto corda
ameaça tensor float32
toxicidade tensor float32
  • Citação :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments/CivilCommentsIdentities

  • Descrição da configuração : CivilCommentsIdentities definido aqui inclui um conjunto estendido de rótulos de identidade além dos sete rótulos básicos. No entanto, inclui apenas o subconjunto (aproximadamente um quarto) dos dados com todos esses recursos.

  • Tamanho do conjunto de dados : 654.97 MiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'test' 21.577
'train' 405.130
'validation' 21.293
  • Estrutura de recursos :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'created_date': string,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • Documentação do recurso :
Recurso Aula Forma Tipo D Descrição
RecursosDict
artigo_id tensor int32
asiático tensor float32
ateu tensor float32
bissexual tensor float32
preto tensor float32
budista tensor float32
cristão tensor float32
Data de criação tensor corda
fêmea tensor float32
heterossexual tensor float32
hindu tensor float32
homossexual_gay_ou_lésbica tensor float32
eu ia tensor corda
Identity_attack tensor float32
insulto tensor float32
intelectual_ou_aprendizagem_deficiência tensor float32
judaico tensor float32
latino tensor float32
macho tensor float32
muçulmano tensor float32
obsceno tensor float32
outra_deficiência tensor float32
outro_gênero tensor float32
outra_raça_ou_etnia tensor float32
outra_religião tensor float32
outra_orientação_sexual tensor float32
parent_id tensor int32
parent_text Texto corda
deficiência física tensor float32
doença_psiquiátrica_ou_mental_ tensor float32
id_publicação tensor corda
toxicidade_grave tensor float32
sexual_explicit tensor float32
texto Texto corda
ameaça tensor float32
toxicidade tensor float32
transexual tensor float32
branco tensor float32
  • Citação :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments/CivilCommentsCovert

  • Descrição da configuração : AVISO: há um possível problema de qualidade de dados com CivilCommentsCovert que estamos trabalhando ativamente para corrigir (28/06/22); os dados subjacentes podem mudar!

O conjunto CivilCommentsCovert é um subconjunto de CivilCommentsIdentities com aproximadamente 20% das divisões de treinamento e teste anotadas para ofensividade oculta, além dos rótulos de toxicidade e identidade. Os avaliadores foram solicitados a categorizar os comentários como explicitamente, implicitamente, não ou não tenho certeza se ofensivos, bem como se continham diferentes tipos de ofensividade encoberta. O procedimento de anotação completo é detalhado em um documento futuro em https://sites.google.com/corp/view/hciandnlp/accepted-papers

  • Tamanho do conjunto de dados : 97.83 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'test' 2.455
'train' 48.074
  • Estrutura de recursos :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'covert_emoticons_emojis': float32,
    'covert_humor': float32,
    'covert_masked_harm': float32,
    'covert_microaggression': float32,
    'covert_obfuscation': float32,
    'covert_political': float32,
    'covert_sarcasm': float32,
    'created_date': string,
    'explicitly_offensive': float32,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'implicitly_offensive': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'not_offensive': float32,
    'not_sure_offensive': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • Documentação do recurso :
Recurso Aula Forma Tipo D Descrição
RecursosDict
artigo_id tensor int32
asiático tensor float32
ateu tensor float32
bissexual tensor float32
preto tensor float32
budista tensor float32
cristão tensor float32
covert_emoticons_emojis tensor float32
humor_encoberto tensor float32
covert_masked_harm tensor float32
covert_microaggression tensor float32
encoberto_ofuscação tensor float32
covert_political tensor float32
disfarce_sarcasmo tensor float32
Data de criação tensor corda
explicitamente_ofensivo tensor float32
fêmea tensor float32
heterossexual tensor float32
hindu tensor float32
homossexual_gay_ou_lésbica tensor float32
eu ia tensor corda
Identity_attack tensor float32
implicitamente_ofensivo tensor float32
insulto tensor float32
intelectual_ou_aprendizagem_deficiência tensor float32
judaico tensor float32
latino tensor float32
macho tensor float32
muçulmano tensor float32
not_offensive tensor float32
not_sure_offensive tensor float32
obsceno tensor float32
outra_deficiência tensor float32
outro_gênero tensor float32
outra_raça_ou_etnia tensor float32
outra_religião tensor float32
outra_orientação_sexual tensor float32
parent_id tensor int32
parent_text Texto corda
deficiência física tensor float32
doença_psiquiátrica_ou_mental_ tensor float32
id_publicação tensor corda
toxicidade_grave tensor float32
sexual_explicit tensor float32
texto Texto corda
ameaça tensor float32
toxicidade tensor float32
transexual tensor float32
branco tensor float32
  • Citação :
@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}

civil_comments/CivilCommentsToxicSpans

  • Descrição da configuração : Os CivilComments Toxic Spans são um subconjunto de CivilComments rotulados no nível do span - os índices de todos os limites de caracteres (pontos de código Unicode) que foram marcados como tóxicos pela maioria dos anotadores são retornados em um recurso de 'spans'.

  • Tamanho do conjunto de dados : 5.81 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'test' 2.000
'train' 7.939
'validation' 682
  • Estrutura de recursos :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'spans': Tensor(shape=(None,), dtype=int32),
    'text': Text(shape=(), dtype=string),
})
  • Documentação do recurso :
Recurso Aula Forma Tipo D Descrição
RecursosDict
artigo_id tensor int32
Data de criação tensor corda
eu ia tensor corda
parent_id tensor int32
parent_text Texto corda
id_publicação tensor corda
vãos tensor (Nenhum,) int32
texto Texto corda
  • Citação :
@inproceedings{pavlopoulos-etal-2021-semeval,
    title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
    author = "Pavlopoulos, John  and Sorensen, Jeffrey  and Laugier, L{'e}o and Androutsopoulos, Ion",
    booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.semeval-1.6",
    doi = "10.18653/v1/2021.semeval-1.6",
    pages = "59--69",
}

civil_comments/CivilCommentsInContext

  • Descrição da configuração : O CivilComments in Context é um subconjunto de CivilComments que foi rotulado disponibilizando aos rotuladores o parent_text. Ele inclui um recurso contextual_toxicity.

  • Tamanho do conjunto de dados : 9.63 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'train' 9.969
  • Estrutura de recursos :
FeaturesDict({
    'article_id': int32,
    'contextual_toxicity': float32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • Documentação do recurso :
Recurso Aula Forma Tipo D Descrição
RecursosDict
artigo_id tensor int32
contextual_toxicidade tensor float32
Data de criação tensor corda
eu ia tensor corda
Identity_attack tensor float32
insulto tensor float32
obsceno tensor float32
parent_id tensor int32
parent_text Texto corda
id_publicação tensor corda
toxicidade_grave tensor float32
sexual_explicit tensor float32
texto Texto corda
ameaça tensor float32
toxicidade tensor float32
  • Citação :
@misc{pavlopoulos2020toxicity,
    title={Toxicity Detection: Does Context Really Matter?},
    author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
    year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}