- Açıklama :
CivilComments Veri Kümesinin bu sürümü, kalabalık çalışanlar tarafından açıklama eklenen birincil yedi etikete erişim sağlar, toksisite ve diğer etiketler, 0 ile 1 arasında bir değerdir ve bu nitelikleri yorum metnine atayan ek açıklama yapanların oranını gösterir.
Diğer etiketler, giriş örneklerinin yalnızca bir kısmı için kullanılabilir. Şu anda ana veri kümesi için yok sayılırlar; CivilCommentsIdentities kümesi bu etiketleri içerir, ancak yalnızca onlarla birlikte verilerin alt kümesinden oluşur. Orijinal CivilComments sürümünün parçası olan diğer özellikler yalnızca ham verilere dahil edilmiştir. Mevcut özellikler hakkında daha fazla ayrıntı için Kaggle belgelerine bakın.
Bu veri kümesindeki yorumlar, bağımsız haber siteleri için bir yorum eklentisi olan Civil Comments platformunun bir arşivinden gelmektedir. Bu genel yorumlar 2015 - 2017 yılları arasında oluşturuldu ve dünya çapında yaklaşık 50 İngilizce haber sitesinde yayınlandı. Civil Comments 2017'de kapatıldığında, gelecekteki araştırmaları mümkün kılmak için herkese açık yorumları kalıcı bir açık arşivde sunmayı seçti. figshare'de yayınlanan orijinal veriler, herkese açık yorum metnini, makale kimlikleri, yayın kimlikleri, zaman damgaları ve yorumcu tarafından oluşturulan "nezaket" etiketleri gibi bazı ilişkili meta verileri içerir, ancak kullanıcı kimliklerini içermez. Jigsaw, zehirlilik, kimlik ifadeleri ve gizli saldırganlık için ek etiketler ekleyerek bu veri kümesini genişletti. Bu veri seti, Jigsaw Unintended Bias in Toxicity Classification Kaggle yarışması için yayınlanan verilerin tam bir kopyasıdır. Bu veri kümesi, altta yatan yorum metni gibi CC0 altında yayınlanır.
Sivil yorum verilerinde de parent_id olan yorumlar için, "parent_text" özelliği olarak bir önceki yorumun metni sağlanır. Bölmelerin bu bilgilere bakılmaksızın yapıldığını unutmayın, bu nedenle önceki yorumları kullanmak bazı bilgileri sızdırabilir. Açıklama yapanların, etiketleri oluştururken ana metne erişimi yoktu.
Ana sayfa : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toksisite-classification/data
Kaynak kodu :
tfds.text.CivilComments
sürümler :
-
1.0.0
: İlk tam sürüm. -
1.0.1
: Her yorum için benzersiz bir kimlik eklendi. -
1.1.0
: CivilCommentsCovert yapılandırması eklendi. -
1.1.1
: Doğru sağlama toplamı ile CivilCommentsCovert yapılandırması eklendi. -
1.1.2
: CivilCommentsCovert veri seti için ayrı alıntı eklendi. -
1.1.3
: Float'tan string'e düzeltilmiş id türleri. -
1.2.0
: Zehirli açıklıklar, bağlam ve ana yorum metni özellikleri ekleyin. -
1.2.1
: Bağlam bölmelerinde hatalı biçimlendirmeyi düzeltin. -
1.2.2
: Yalnızca tren ayrımı olan bağlamı yansıtacak şekilde güncelleyin. -
1.2.3
: Bir veri sorununu düzeltirken CivilCommentsCovert'e uyarı ekleyin. -
1.2.4
(varsayılan): Yayın kimlikleri ve yorum zaman damgaları ekleyin.
-
İndirme boyutu :
427.41 MiB
Şekil ( tfds.show_examples ): Desteklenmiyor.
civil_comments/CivilComments (varsayılan yapılandırma)
Yapılandırma açıklaması : Burada ayarlanan CivilComments, tüm verileri içerir, ancak yalnızca temel yedi etiketi içerir (toksisite, şiddetli_toksisite, müstehcen, tehdit, hakaret, kimlik_saldırısı ve müstehcen cinsel).
Veri kümesi boyutu :
1.54 GiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 97.320 |
'train' | 1.804.874 |
'validation' | 97.320 |
- Özellik yapısı :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
makale_kimliği | tensör | int32 | ||
yaratılan_tarih | tensör | sicim | ||
İD | tensör | sicim | ||
kimlik_saldırısı | tensör | şamandıra32 | ||
hakaret | tensör | şamandıra32 | ||
müstehcen | tensör | şamandıra32 | ||
ebeveyn kimliği | tensör | int32 | ||
ebeveyn_metni | Metin | sicim | ||
yayın_kimliği | tensör | sicim | ||
şiddetli_toksisite | tensör | şamandıra32 | ||
cinsel_açık | tensör | şamandıra32 | ||
metin | Metin | sicim | ||
tehdit | tensör | şamandıra32 | ||
toksisite | tensör | şamandıra32 |
Denetimli anahtarlar (Bkz.
as_supervised
doc ):('text', 'toxicity')
Örnekler ( tfds.as_dataframe ):
- Alıntı :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
civil_comments/CivilCommentsIdentities
Yapılandırma açıklaması : Burada ayarlanan CivilCommentsIdentities, yedi temel etikete ek olarak genişletilmiş bir kimlik etiketleri kümesi içerir. Ancak, tüm bu özelliklere sahip verilerin yalnızca alt kümesini (yaklaşık dörtte birini) içerir.
Veri kümesi boyutu :
654.97 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 21.577 |
'train' | 405.130 |
'validation' | 21.293 |
- Özellik yapısı :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'created_date': string,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
makale_kimliği | tensör | int32 | ||
Asya | tensör | şamandıra32 | ||
ateist | tensör | şamandıra32 | ||
biseksüel | tensör | şamandıra32 | ||
siyah | tensör | şamandıra32 | ||
Budist | tensör | şamandıra32 | ||
hıristiyan | tensör | şamandıra32 | ||
yaratılan_tarih | tensör | sicim | ||
dişi | tensör | şamandıra32 | ||
heteroseksüel | tensör | şamandıra32 | ||
Hindu | tensör | şamandıra32 | ||
homoseksüel_gay_veya_lesbian | tensör | şamandıra32 | ||
İD | tensör | sicim | ||
kimlik_saldırısı | tensör | şamandıra32 | ||
hakaret | tensör | şamandıra32 | ||
entelektüel_veya_öğrenme_engelliliği | tensör | şamandıra32 | ||
Yahudi | tensör | şamandıra32 | ||
latin | tensör | şamandıra32 | ||
erkek | tensör | şamandıra32 | ||
Müslüman | tensör | şamandıra32 | ||
müstehcen | tensör | şamandıra32 | ||
other_disability | tensör | şamandıra32 | ||
other_gender | tensör | şamandıra32 | ||
other_race_or_ethnicity | tensör | şamandıra32 | ||
other_religion | tensör | şamandıra32 | ||
other_sexual_orientation | tensör | şamandıra32 | ||
ebeveyn kimliği | tensör | int32 | ||
ebeveyn_metni | Metin | sicim | ||
fiziksel engel | tensör | şamandıra32 | ||
psikiyatrik_ya da zihinsel_hastalık | tensör | şamandıra32 | ||
yayın_kimliği | tensör | sicim | ||
şiddetli_toksisite | tensör | şamandıra32 | ||
cinsel_açık | tensör | şamandıra32 | ||
metin | Metin | sicim | ||
tehdit | tensör | şamandıra32 | ||
toksisite | tensör | şamandıra32 | ||
transseksüel | tensör | şamandıra32 | ||
beyaz | tensör | şamandıra32 |
Denetimli anahtarlar (Bkz.
as_supervised
doc ):('text', 'toxicity')
Örnekler ( tfds.as_dataframe ):
- Alıntı :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
civil_comments/CivilCommentsGizli
- Yapılandırma açıklaması : UYARI: CivilCommentsCovert ile ilgili aktif olarak düzeltmeye çalıştığımız potansiyel bir veri kalitesi sorunu var (28.06.22); temel veriler değişebilir!
CivilCommentsCovert seti, toksisite ve kimlik etiketlerine ek olarak gizli saldırganlık için açıklama eklenmiş tren ve test bölümlerinin ~%20'si ile CivilCommentsIdentities'in bir alt kümesidir. Değerlendiricilerden yorumları açıkça, dolaylı olarak, değil veya saldırgan olup olmadığından emin değilim ve ayrıca farklı türlerde gizli saldırganlık içerip içermediği şeklinde kategorize etmeleri istendi. Ek açıklama prosedürünün tamamı, https://sites.google.com/corp/view/hciandnlp/accepted-papers adresinde yayınlanacak bir makalede ayrıntılı olarak açıklanmaktadır.
Veri kümesi boyutu :
97.83 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 2.455 |
'train' | 48.074 |
- Özellik yapısı :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'covert_emoticons_emojis': float32,
'covert_humor': float32,
'covert_masked_harm': float32,
'covert_microaggression': float32,
'covert_obfuscation': float32,
'covert_political': float32,
'covert_sarcasm': float32,
'created_date': string,
'explicitly_offensive': float32,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'implicitly_offensive': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'not_offensive': float32,
'not_sure_offensive': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
makale_kimliği | tensör | int32 | ||
Asya | tensör | şamandıra32 | ||
ateist | tensör | şamandıra32 | ||
biseksüel | tensör | şamandıra32 | ||
siyah | tensör | şamandıra32 | ||
Budist | tensör | şamandıra32 | ||
hıristiyan | tensör | şamandıra32 | ||
covert_emoticons_emojis | tensör | şamandıra32 | ||
gizli_humor | tensör | şamandıra32 | ||
covert_masked_harm | tensör | şamandıra32 | ||
covert_microaggression | tensör | şamandıra32 | ||
covert_gizleme | tensör | şamandıra32 | ||
gizli_siyasi | tensör | şamandıra32 | ||
covert_sarcasm | tensör | şamandıra32 | ||
yaratılan_tarih | tensör | sicim | ||
açıkça_saldırgan | tensör | şamandıra32 | ||
dişi | tensör | şamandıra32 | ||
heteroseksüel | tensör | şamandıra32 | ||
Hindu | tensör | şamandıra32 | ||
homoseksüel_gay_veya_lesbian | tensör | şamandıra32 | ||
İD | tensör | sicim | ||
kimlik_saldırısı | tensör | şamandıra32 | ||
dolaylı_saldırgan | tensör | şamandıra32 | ||
hakaret | tensör | şamandıra32 | ||
entelektüel_veya_öğrenme_engelliliği | tensör | şamandıra32 | ||
Yahudi | tensör | şamandıra32 | ||
latin | tensör | şamandıra32 | ||
erkek | tensör | şamandıra32 | ||
Müslüman | tensör | şamandıra32 | ||
saldırgan değil | tensör | şamandıra32 | ||
emin_saldırı değil | tensör | şamandıra32 | ||
müstehcen | tensör | şamandıra32 | ||
other_disability | tensör | şamandıra32 | ||
other_gender | tensör | şamandıra32 | ||
other_race_or_ethnicity | tensör | şamandıra32 | ||
other_religion | tensör | şamandıra32 | ||
other_sexual_orientation | tensör | şamandıra32 | ||
ebeveyn kimliği | tensör | int32 | ||
ebeveyn_metni | Metin | sicim | ||
fiziksel engel | tensör | şamandıra32 | ||
psikiyatrik_ya da zihinsel_hastalık | tensör | şamandıra32 | ||
yayın_kimliği | tensör | sicim | ||
şiddetli_toksisite | tensör | şamandıra32 | ||
cinsel_açık | tensör | şamandıra32 | ||
metin | Metin | sicim | ||
tehdit | tensör | şamandıra32 | ||
toksisite | tensör | şamandıra32 | ||
transseksüel | tensör | şamandıra32 | ||
beyaz | tensör | şamandıra32 |
Denetimli anahtarlar (Bkz.
as_supervised
doc ):('text', 'toxicity')
Örnekler ( tfds.as_dataframe ):
- Alıntı :
@inproceedings{lees-etal-2021-capturing,
title = "Capturing Covertly Toxic Speech via Crowdsourcing",
author = "Lees, Alyssa and
Borkan, Daniel and
Kivlichan, Ian and
Nario, Jorge and
Goyal, Tesh",
booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
month = apr,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
pages = "14--20"
}
civil_comments/CivilCommentsToxicSpans
Yapılandırma açıklaması : CivilComments Toxic Spans, CivilComments'ın yayılma düzeyinde etiketlenen bir alt kümesidir - açıklama yapanların çoğu tarafından zehirli olarak etiketlenen tüm karakter (unicode kod noktaları) sınırlarının endeksleri, bir "açıklık" özelliğinde döndürülür.
Veri kümesi boyutu :
5.81 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 2.000 |
'train' | 7.939 |
'validation' | 682 |
- Özellik yapısı :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'spans': Tensor(shape=(None,), dtype=int32),
'text': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
makale_kimliği | tensör | int32 | ||
yaratılan_tarih | tensör | sicim | ||
İD | tensör | sicim | ||
ebeveyn kimliği | tensör | int32 | ||
ebeveyn_metni | Metin | sicim | ||
yayın_kimliği | tensör | sicim | ||
açıklıklar | tensör | (Hiçbiri,) | int32 | |
metin | Metin | sicim |
Denetlenen anahtarlar (Bkz .
as_supervised
doc ):('text', 'spans')
Örnekler ( tfds.as_dataframe ):
- Alıntı :
@inproceedings{pavlopoulos-etal-2021-semeval,
title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
author = "Pavlopoulos, John and Sorensen, Jeffrey and Laugier, L{'e}o and Androutsopoulos, Ion",
booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.semeval-1.6",
doi = "10.18653/v1/2021.semeval-1.6",
pages = "59--69",
}
civil_comments/CivilCommentsInContext
Yapılandırma açıklaması : Bağlamdaki CivilComments, parent_text'i etiketleyenler tarafından kullanılabilir hale getirilerek etiketlenen CivilComments'ın bir alt kümesidir. Bir bağlamsal_toksisite özelliği içerir.
Veri kümesi boyutu :
9.63 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 9.969 |
- Özellik yapısı :
FeaturesDict({
'article_id': int32,
'contextual_toxicity': float32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
makale_kimliği | tensör | int32 | ||
bağlamsal_toksisite | tensör | şamandıra32 | ||
yaratılan_tarih | tensör | sicim | ||
İD | tensör | sicim | ||
kimlik_saldırısı | tensör | şamandıra32 | ||
hakaret | tensör | şamandıra32 | ||
müstehcen | tensör | şamandıra32 | ||
ebeveyn kimliği | tensör | int32 | ||
ebeveyn_metni | Metin | sicim | ||
yayın_kimliği | tensör | sicim | ||
şiddetli_toksisite | tensör | şamandıra32 | ||
cinsel_açık | tensör | şamandıra32 | ||
metin | Metin | sicim | ||
tehdit | tensör | şamandıra32 | ||
toksisite | tensör | şamandıra32 |
Denetimli anahtarlar (Bkz.
as_supervised
doc ):('text', 'toxicity')
Örnekler ( tfds.as_dataframe ):
- Alıntı :
@misc{pavlopoulos2020toxicity,
title={Toxicity Detection: Does Context Really Matter?},
author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}