sivil_yorumlar

  • Açıklama :

CivilComments Veri Kümesinin bu sürümü, kalabalık çalışanlar tarafından açıklama eklenen birincil yedi etikete erişim sağlar, toksisite ve diğer etiketler, 0 ile 1 arasında bir değerdir ve bu nitelikleri yorum metnine atayan ek açıklama yapanların oranını gösterir.

Diğer etiketler, giriş örneklerinin yalnızca bir kısmı için kullanılabilir. Şu anda ana veri kümesi için yok sayılırlar; CivilCommentsIdentities kümesi bu etiketleri içerir, ancak yalnızca onlarla birlikte verilerin alt kümesinden oluşur. Orijinal CivilComments sürümünün parçası olan diğer özellikler yalnızca ham verilere dahil edilmiştir. Mevcut özellikler hakkında daha fazla ayrıntı için Kaggle belgelerine bakın.

Bu veri kümesindeki yorumlar, bağımsız haber siteleri için bir yorum eklentisi olan Civil Comments platformunun bir arşivinden gelmektedir. Bu genel yorumlar 2015 - 2017 yılları arasında oluşturuldu ve dünya çapında yaklaşık 50 İngilizce haber sitesinde yayınlandı. Civil Comments 2017'de kapatıldığında, gelecekteki araştırmaları mümkün kılmak için herkese açık yorumları kalıcı bir açık arşivde sunmayı seçti. figshare'de yayınlanan orijinal veriler, herkese açık yorum metnini, makale kimlikleri, yayın kimlikleri, zaman damgaları ve yorumcu tarafından oluşturulan "nezaket" etiketleri gibi bazı ilişkili meta verileri içerir, ancak kullanıcı kimliklerini içermez. Jigsaw, zehirlilik, kimlik ifadeleri ve gizli saldırganlık için ek etiketler ekleyerek bu veri kümesini genişletti. Bu veri seti, Jigsaw Unintended Bias in Toxicity Classification Kaggle yarışması için yayınlanan verilerin tam bir kopyasıdır. Bu veri kümesi, altta yatan yorum metni gibi CC0 altında yayınlanır.

Sivil yorum verilerinde de parent_id olan yorumlar için, "parent_text" özelliği olarak bir önceki yorumun metni sağlanır. Bölmelerin bu bilgilere bakılmaksızın yapıldığını unutmayın, bu nedenle önceki yorumları kullanmak bazı bilgileri sızdırabilir. Açıklama yapanların, etiketleri oluştururken ana metne erişimi yoktu.

  • Ana sayfa : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toksisite-classification/data

  • Kaynak kodu : tfds.text.CivilComments

  • sürümler :

    • 1.0.0 : İlk tam sürüm.
    • 1.0.1 : Her yorum için benzersiz bir kimlik eklendi.
    • 1.1.0 : CivilCommentsCovert yapılandırması eklendi.
    • 1.1.1 : Doğru sağlama toplamı ile CivilCommentsCovert yapılandırması eklendi.
    • 1.1.2 : CivilCommentsCovert veri seti için ayrı alıntı eklendi.
    • 1.1.3 : Float'tan string'e düzeltilmiş id türleri.
    • 1.2.0 : Zehirli açıklıklar, bağlam ve ana yorum metni özellikleri ekleyin.
    • 1.2.1 : Bağlam bölmelerinde hatalı biçimlendirmeyi düzeltin.
    • 1.2.2 : Yalnızca tren ayrımı olan bağlamı yansıtacak şekilde güncelleyin.
    • 1.2.3 : Bir veri sorununu düzeltirken CivilCommentsCovert'e uyarı ekleyin.
    • 1.2.4 (varsayılan): Yayın kimlikleri ve yorum zaman damgaları ekleyin.
  • İndirme boyutu : 427.41 MiB

  • Şekil ( tfds.show_examples ): Desteklenmiyor.

civil_comments/CivilComments (varsayılan yapılandırma)

  • Yapılandırma açıklaması : Burada ayarlanan CivilComments, tüm verileri içerir, ancak yalnızca temel yedi etiketi içerir (toksisite, şiddetli_toksisite, müstehcen, tehdit, hakaret, kimlik_saldırısı ve müstehcen cinsel).

  • Veri kümesi boyutu : 1.54 GiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Hayır

  • bölmeler :

Bölmek örnekler
'test' 97.320
'train' 1.804.874
'validation' 97.320
  • Özellik yapısı :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
makale_kimliği tensör int32
yaratılan_tarih tensör sicim
İD tensör sicim
kimlik_saldırısı tensör şamandıra32
hakaret tensör şamandıra32
müstehcen tensör şamandıra32
ebeveyn kimliği tensör int32
ebeveyn_metni Metin sicim
yayın_kimliği tensör sicim
şiddetli_toksisite tensör şamandıra32
cinsel_açık tensör şamandıra32
metin Metin sicim
tehdit tensör şamandıra32
toksisite tensör şamandıra32
  • Alıntı :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments/CivilCommentsIdentities

  • Yapılandırma açıklaması : Burada ayarlanan CivilCommentsIdentities, yedi temel etikete ek olarak genişletilmiş bir kimlik etiketleri kümesi içerir. Ancak, tüm bu özelliklere sahip verilerin yalnızca alt kümesini (yaklaşık dörtte birini) içerir.

  • Veri kümesi boyutu : 654.97 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Hayır

  • bölmeler :

Bölmek örnekler
'test' 21.577
'train' 405.130
'validation' 21.293
  • Özellik yapısı :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'created_date': string,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
makale_kimliği tensör int32
Asya tensör şamandıra32
ateist tensör şamandıra32
biseksüel tensör şamandıra32
siyah tensör şamandıra32
Budist tensör şamandıra32
hıristiyan tensör şamandıra32
yaratılan_tarih tensör sicim
dişi tensör şamandıra32
heteroseksüel tensör şamandıra32
Hindu tensör şamandıra32
homoseksüel_gay_veya_lesbian tensör şamandıra32
İD tensör sicim
kimlik_saldırısı tensör şamandıra32
hakaret tensör şamandıra32
entelektüel_veya_öğrenme_engelliliği tensör şamandıra32
Yahudi tensör şamandıra32
latin tensör şamandıra32
erkek tensör şamandıra32
Müslüman tensör şamandıra32
müstehcen tensör şamandıra32
other_disability tensör şamandıra32
other_gender tensör şamandıra32
other_race_or_ethnicity tensör şamandıra32
other_religion tensör şamandıra32
other_sexual_orientation tensör şamandıra32
ebeveyn kimliği tensör int32
ebeveyn_metni Metin sicim
fiziksel engel tensör şamandıra32
psikiyatrik_ya da zihinsel_hastalık tensör şamandıra32
yayın_kimliği tensör sicim
şiddetli_toksisite tensör şamandıra32
cinsel_açık tensör şamandıra32
metin Metin sicim
tehdit tensör şamandıra32
toksisite tensör şamandıra32
transseksüel tensör şamandıra32
beyaz tensör şamandıra32
  • Alıntı :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments/CivilCommentsGizli

  • Yapılandırma açıklaması : UYARI: CivilCommentsCovert ile ilgili aktif olarak düzeltmeye çalıştığımız potansiyel bir veri kalitesi sorunu var (28.06.22); temel veriler değişebilir!

CivilCommentsCovert seti, toksisite ve kimlik etiketlerine ek olarak gizli saldırganlık için açıklama eklenmiş tren ve test bölümlerinin ~%20'si ile CivilCommentsIdentities'in bir alt kümesidir. Değerlendiricilerden yorumları açıkça, dolaylı olarak, değil veya saldırgan olup olmadığından emin değilim ve ayrıca farklı türlerde gizli saldırganlık içerip içermediği şeklinde kategorize etmeleri istendi. Ek açıklama prosedürünün tamamı, https://sites.google.com/corp/view/hciandnlp/accepted-papers adresinde yayınlanacak bir makalede ayrıntılı olarak açıklanmaktadır.

  • Veri kümesi boyutu : 97.83 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'test' 2.455
'train' 48.074
  • Özellik yapısı :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'covert_emoticons_emojis': float32,
    'covert_humor': float32,
    'covert_masked_harm': float32,
    'covert_microaggression': float32,
    'covert_obfuscation': float32,
    'covert_political': float32,
    'covert_sarcasm': float32,
    'created_date': string,
    'explicitly_offensive': float32,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'implicitly_offensive': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'not_offensive': float32,
    'not_sure_offensive': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
makale_kimliği tensör int32
Asya tensör şamandıra32
ateist tensör şamandıra32
biseksüel tensör şamandıra32
siyah tensör şamandıra32
Budist tensör şamandıra32
hıristiyan tensör şamandıra32
covert_emoticons_emojis tensör şamandıra32
gizli_humor tensör şamandıra32
covert_masked_harm tensör şamandıra32
covert_microaggression tensör şamandıra32
covert_gizleme tensör şamandıra32
gizli_siyasi tensör şamandıra32
covert_sarcasm tensör şamandıra32
yaratılan_tarih tensör sicim
açıkça_saldırgan tensör şamandıra32
dişi tensör şamandıra32
heteroseksüel tensör şamandıra32
Hindu tensör şamandıra32
homoseksüel_gay_veya_lesbian tensör şamandıra32
İD tensör sicim
kimlik_saldırısı tensör şamandıra32
dolaylı_saldırgan tensör şamandıra32
hakaret tensör şamandıra32
entelektüel_veya_öğrenme_engelliliği tensör şamandıra32
Yahudi tensör şamandıra32
latin tensör şamandıra32
erkek tensör şamandıra32
Müslüman tensör şamandıra32
saldırgan değil tensör şamandıra32
emin_saldırı değil tensör şamandıra32
müstehcen tensör şamandıra32
other_disability tensör şamandıra32
other_gender tensör şamandıra32
other_race_or_ethnicity tensör şamandıra32
other_religion tensör şamandıra32
other_sexual_orientation tensör şamandıra32
ebeveyn kimliği tensör int32
ebeveyn_metni Metin sicim
fiziksel engel tensör şamandıra32
psikiyatrik_ya da zihinsel_hastalık tensör şamandıra32
yayın_kimliği tensör sicim
şiddetli_toksisite tensör şamandıra32
cinsel_açık tensör şamandıra32
metin Metin sicim
tehdit tensör şamandıra32
toksisite tensör şamandıra32
transseksüel tensör şamandıra32
beyaz tensör şamandıra32
  • Alıntı :
@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}

civil_comments/CivilCommentsToxicSpans

  • Yapılandırma açıklaması : CivilComments Toxic Spans, CivilComments'ın yayılma düzeyinde etiketlenen bir alt kümesidir - açıklama yapanların çoğu tarafından zehirli olarak etiketlenen tüm karakter (unicode kod noktaları) sınırlarının endeksleri, bir "açıklık" özelliğinde döndürülür.

  • Veri kümesi boyutu : 5.81 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'test' 2.000
'train' 7.939
'validation' 682
  • Özellik yapısı :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'spans': Tensor(shape=(None,), dtype=int32),
    'text': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
makale_kimliği tensör int32
yaratılan_tarih tensör sicim
İD tensör sicim
ebeveyn kimliği tensör int32
ebeveyn_metni Metin sicim
yayın_kimliği tensör sicim
açıklıklar tensör (Hiçbiri,) int32
metin Metin sicim
  • Alıntı :
@inproceedings{pavlopoulos-etal-2021-semeval,
    title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
    author = "Pavlopoulos, John  and Sorensen, Jeffrey  and Laugier, L{'e}o and Androutsopoulos, Ion",
    booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.semeval-1.6",
    doi = "10.18653/v1/2021.semeval-1.6",
    pages = "59--69",
}

civil_comments/CivilCommentsInContext

  • Yapılandırma açıklaması : Bağlamdaki CivilComments, parent_text'i etiketleyenler tarafından kullanılabilir hale getirilerek etiketlenen CivilComments'ın bir alt kümesidir. Bir bağlamsal_toksisite özelliği içerir.

  • Veri kümesi boyutu : 9.63 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'train' 9.969
  • Özellik yapısı :
FeaturesDict({
    'article_id': int32,
    'contextual_toxicity': float32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
makale_kimliği tensör int32
bağlamsal_toksisite tensör şamandıra32
yaratılan_tarih tensör sicim
İD tensör sicim
kimlik_saldırısı tensör şamandıra32
hakaret tensör şamandıra32
müstehcen tensör şamandıra32
ebeveyn kimliği tensör int32
ebeveyn_metni Metin sicim
yayın_kimliği tensör sicim
şiddetli_toksisite tensör şamandıra32
cinsel_açık tensör şamandıra32
metin Metin sicim
tehdit tensör şamandıra32
toksisite tensör şamandıra32
  • Alıntı :
@misc{pavlopoulos2020toxicity,
    title={Toxicity Detection: Does Context Really Matter?},
    author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
    year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}