- Deskripsi :
Versi CivilComments Dataset ini menyediakan akses ke tujuh label utama yang dianotasi oleh pekerja kerumunan, toksisitas dan tag lainnya adalah nilai antara 0 dan 1 yang menunjukkan fraksi annotator yang menetapkan atribut ini ke teks komentar.
Tag lain hanya tersedia untuk sebagian kecil dari contoh masukan. Mereka saat ini diabaikan untuk kumpulan data utama; set CivilCommentsIdentities menyertakan label tersebut, tetapi hanya terdiri dari subset data bersamanya. Atribut lain yang merupakan bagian dari rilis CivilComments asli hanya disertakan dalam data mentah. Lihat dokumentasi Kaggle untuk detail lebih lanjut tentang fitur yang tersedia.
Komentar dalam kumpulan data ini berasal dari arsip platform Civil Comments, sebuah plugin komentar untuk situs berita independen. Komentar publik ini dibuat dari tahun 2015 - 2017 dan muncul di sekitar 50 situs berita berbahasa Inggris di seluruh dunia. Ketika Komentar Sipil ditutup pada tahun 2017, mereka memilih untuk membuat komentar publik tersedia dalam arsip terbuka yang tahan lama untuk memungkinkan penelitian di masa mendatang. Data asli, yang dipublikasikan di figshare, mencakup teks komentar publik, beberapa metadata terkait seperti ID artikel, ID publikasi, stempel waktu, dan label "kesopanan" yang dibuat oleh pemberi komentar, tetapi tidak menyertakan id pengguna. Jigsaw memperluas kumpulan data ini dengan menambahkan label tambahan untuk toksisitas, penyebutan identitas, serta serangan terselubung. Kumpulan data ini adalah replika persis dari data yang dirilis untuk Jigsaw Unintended Bias in Toxicity Classification Kaggle challenge. Kumpulan data ini dirilis di bawah CC0, seperti teks komentar yang mendasarinya.
Untuk komentar yang memiliki parent_id juga di data komentar sipil, teks komentar sebelumnya disediakan sebagai fitur "parent_text". Perhatikan bahwa pemisahan dilakukan tanpa memperhatikan informasi ini, jadi menggunakan komentar sebelumnya dapat membocorkan beberapa informasi. Anotator tidak memiliki akses ke teks induk saat membuat label.
Beranda : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data
Kode sumber :
tfds.text.CivilComments
Versi :
-
1.0.0
: Rilis penuh awal. -
1.0.1
: Menambahkan id unik untuk setiap komentar. -
1.1.0
: Menambahkan konfigurasi CivilCommentsCovert. -
1.1.1
: Menambahkan konfigurasi CivilCommentsCovert dengan checksum yang benar. -
1.1.2
: Menambahkan kutipan terpisah untuk kumpulan data CivilCommentsCovert. -
1.1.3
: Memperbaiki tipe id dari float ke string. -
1.2.0
: Menambahkan fitur teks span, konteks, dan komentar induk yang beracun. -
1.2.1
: Perbaiki pemformatan yang salah dalam pemisahan konteks. -
1.2.2
: Perbarui untuk mencerminkan konteks yang hanya memiliki pemisahan kereta. -
1.2.3
: Tambahkan peringatan ke CivilCommentsCovert saat kami memperbaiki masalah data. -
1.2.4
(default): Tambahkan ID publikasi dan stempel waktu komentar.
-
Ukuran unduhan :
427.41 MiB
Gambar ( tfds.show_examples ): Tidak didukung.
civil_comments/CivilComments (konfigurasi default)
Deskripsi konfigurasi : CivilComments yang diatur di sini mencakup semua data, tetapi hanya tujuh label dasar (toksisitas, toksisitas_berat, cabul, ancaman, penghinaan, serangan_identitas, dan seksual_eksplisit).
Ukuran dataset :
1.54 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 97.320 |
'train' | 1.804.874 |
'validation' | 97.320 |
- Struktur fitur :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
article_id | Tensor | int32 | ||
tanggal_dibuat | Tensor | rangkaian | ||
pengenal | Tensor | rangkaian | ||
identity_attack | Tensor | float32 | ||
menyinggung | Tensor | float32 | ||
cabul | Tensor | float32 | ||
identitas orang tua | Tensor | int32 | ||
parent_text | Teks | rangkaian | ||
publikasi_id | Tensor | rangkaian | ||
parah_toksisitas | Tensor | float32 | ||
seksual_eksplisit | Tensor | float32 | ||
teks | Teks | rangkaian | ||
ancaman | Tensor | float32 | ||
toksisitas | Tensor | float32 |
Kunci yang diawasi (Lihat
as_supervised
doc ):('text', 'toxicity')
Contoh ( tfds.as_dataframe ):
- Kutipan :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
civil_comments/CivilCommentsIdentities
Deskripsi konfigurasi : CivilCommentsIdentities yang diatur di sini menyertakan serangkaian label identitas tambahan selain tujuh label dasar. Namun, ini hanya mencakup sebagian (kira-kira seperempat) data dengan semua fitur ini.
Ukuran dataset :
654.97 MiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 21.577 |
'train' | 405.130 |
'validation' | 21.293 |
- Struktur fitur :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'created_date': string,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
article_id | Tensor | int32 | ||
Asia | Tensor | float32 | ||
ateis | Tensor | float32 | ||
biseksual | Tensor | float32 | ||
hitam | Tensor | float32 | ||
Buddhis | Tensor | float32 | ||
Kristen | Tensor | float32 | ||
tanggal_dibuat | Tensor | rangkaian | ||
perempuan | Tensor | float32 | ||
heteroseks | Tensor | float32 | ||
Hindu | Tensor | float32 | ||
homoseksual_gay_or_lesbian | Tensor | float32 | ||
pengenal | Tensor | rangkaian | ||
identity_attack | Tensor | float32 | ||
menyinggung | Tensor | float32 | ||
intelektual_atau_ketidakmampuan_belajar | Tensor | float32 | ||
Yahudi | Tensor | float32 | ||
latin | Tensor | float32 | ||
pria | Tensor | float32 | ||
Muslim | Tensor | float32 | ||
cabul | Tensor | float32 | ||
other_disability | Tensor | float32 | ||
other_gender | Tensor | float32 | ||
other_race_or_ethnicity | Tensor | float32 | ||
agama_lain | Tensor | float32 | ||
other_sexual_orientation | Tensor | float32 | ||
identitas orang tua | Tensor | int32 | ||
parent_text | Teks | rangkaian | ||
cacat fisik | Tensor | float32 | ||
psikiatri_atau_mental_penyakit | Tensor | float32 | ||
publikasi_id | Tensor | rangkaian | ||
parah_toksisitas | Tensor | float32 | ||
seksual_eksplisit | Tensor | float32 | ||
teks | Teks | rangkaian | ||
ancaman | Tensor | float32 | ||
toksisitas | Tensor | float32 | ||
transgender | Tensor | float32 | ||
putih | Tensor | float32 |
Kunci yang diawasi (Lihat
as_supervised
doc ):('text', 'toxicity')
Contoh ( tfds.as_dataframe ):
- Kutipan :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
civil_comments/CivilCommentsCovert
- Deskripsi konfigurasi : PERINGATAN: ada potensi masalah kualitas data dengan CivilCommentsCovert yang sedang kami perbaiki secara aktif (28/06/22); data yang mendasarinya dapat berubah!
Set CivilCommentsCovert adalah subset dari CivilCommentsIdentities dengan ~20% dari train dan test split yang dianotasi lebih lanjut untuk serangan terselubung, selain label toksisitas dan identitas. Penilai diminta untuk mengkategorikan komentar sebagai salah satu komentar yang secara eksplisit, implisit, tidak, atau tidak yakin apakah menyinggung, serta apakah itu berisi berbagai jenis serangan terselubung. Prosedur anotasi lengkap dirinci dalam makalah yang akan datang di https://sites.google.com/corp/view/hciandnlp/accepted-papers
Ukuran dataset :
97.83 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 2.455 |
'train' | 48.074 |
- Struktur fitur :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'covert_emoticons_emojis': float32,
'covert_humor': float32,
'covert_masked_harm': float32,
'covert_microaggression': float32,
'covert_obfuscation': float32,
'covert_political': float32,
'covert_sarcasm': float32,
'created_date': string,
'explicitly_offensive': float32,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'implicitly_offensive': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'not_offensive': float32,
'not_sure_offensive': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
article_id | Tensor | int32 | ||
Asia | Tensor | float32 | ||
ateis | Tensor | float32 | ||
biseksual | Tensor | float32 | ||
hitam | Tensor | float32 | ||
Buddhis | Tensor | float32 | ||
Kristen | Tensor | float32 | ||
covert_emoticons_emojis | Tensor | float32 | ||
rahasia_humor | Tensor | float32 | ||
covert_masked_harm | Tensor | float32 | ||
terselubung_microaggression | Tensor | float32 | ||
rahasia_kebingungan | Tensor | float32 | ||
rahasia_politik | Tensor | float32 | ||
sarkasme terselubung | Tensor | float32 | ||
tanggal_dibuat | Tensor | rangkaian | ||
eksplisit_ofensif | Tensor | float32 | ||
perempuan | Tensor | float32 | ||
heteroseks | Tensor | float32 | ||
Hindu | Tensor | float32 | ||
homoseksual_gay_or_lesbian | Tensor | float32 | ||
pengenal | Tensor | rangkaian | ||
identity_attack | Tensor | float32 | ||
secara implisit_ofensif | Tensor | float32 | ||
menyinggung | Tensor | float32 | ||
intelektual_atau_ketidakmampuan_belajar | Tensor | float32 | ||
Yahudi | Tensor | float32 | ||
latin | Tensor | float32 | ||
pria | Tensor | float32 | ||
Muslim | Tensor | float32 | ||
not_ofensif | Tensor | float32 | ||
not_sure_offensive | Tensor | float32 | ||
cabul | Tensor | float32 | ||
other_disability | Tensor | float32 | ||
other_gender | Tensor | float32 | ||
other_race_or_ethnicity | Tensor | float32 | ||
agama_lain | Tensor | float32 | ||
other_sexual_orientation | Tensor | float32 | ||
identitas orang tua | Tensor | int32 | ||
parent_text | Teks | rangkaian | ||
cacat fisik | Tensor | float32 | ||
psikiatri_atau_mental_penyakit | Tensor | float32 | ||
publikasi_id | Tensor | rangkaian | ||
parah_toksisitas | Tensor | float32 | ||
seksual_eksplisit | Tensor | float32 | ||
teks | Teks | rangkaian | ||
ancaman | Tensor | float32 | ||
toksisitas | Tensor | float32 | ||
transgender | Tensor | float32 | ||
putih | Tensor | float32 |
Kunci yang diawasi (Lihat
as_supervised
doc ):('text', 'toxicity')
Contoh ( tfds.as_dataframe ):
- Kutipan :
@inproceedings{lees-etal-2021-capturing,
title = "Capturing Covertly Toxic Speech via Crowdsourcing",
author = "Lees, Alyssa and
Borkan, Daniel and
Kivlichan, Ian and
Nario, Jorge and
Goyal, Tesh",
booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
month = apr,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
pages = "14--20"
}
civil_comments/CivilCommentsToxicSpans
Deskripsi konfigurasi : CivilComments Toxic Spans adalah bagian dari CivilComments yang diberi label pada tingkat span - indeks semua batas karakter (unicode codepoints) yang ditandai sebagai toxic oleh sebagian besar anotator dikembalikan dalam fitur 'spans'.
Ukuran dataset :
5.81 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 2.000 |
'train' | 7.939 |
'validation' | 682 |
- Struktur fitur :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'spans': Tensor(shape=(None,), dtype=int32),
'text': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
article_id | Tensor | int32 | ||
tanggal_dibuat | Tensor | rangkaian | ||
pengenal | Tensor | rangkaian | ||
identitas orang tua | Tensor | int32 | ||
parent_text | Teks | rangkaian | ||
publikasi_id | Tensor | rangkaian | ||
rentang | Tensor | (Tidak ada,) | int32 | |
teks | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):('text', 'spans')
Contoh ( tfds.as_dataframe ):
- Kutipan :
@inproceedings{pavlopoulos-etal-2021-semeval,
title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
author = "Pavlopoulos, John and Sorensen, Jeffrey and Laugier, L{'e}o and Androutsopoulos, Ion",
booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.semeval-1.6",
doi = "10.18653/v1/2021.semeval-1.6",
pages = "59--69",
}
civil_comments/CivilCommentsInContext
Deskripsi konfigurasi : CivilComments in Context adalah bagian dari CivilComments yang diberi label dengan menyediakan parent_text kepada pemberi label. Ini termasuk fitur contextual_toxicity.
Ukuran dataset :
9.63 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 9.969 |
- Struktur fitur :
FeaturesDict({
'article_id': int32,
'contextual_toxicity': float32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
article_id | Tensor | int32 | ||
kontekstual_toksisitas | Tensor | float32 | ||
tanggal_dibuat | Tensor | rangkaian | ||
pengenal | Tensor | rangkaian | ||
identity_attack | Tensor | float32 | ||
menyinggung | Tensor | float32 | ||
cabul | Tensor | float32 | ||
identitas orang tua | Tensor | int32 | ||
parent_text | Teks | rangkaian | ||
publikasi_id | Tensor | rangkaian | ||
parah_toksisitas | Tensor | float32 | ||
seksual_eksplisit | Tensor | float32 | ||
teks | Teks | rangkaian | ||
ancaman | Tensor | float32 | ||
toksisitas | Tensor | float32 |
Kunci yang diawasi (Lihat
as_supervised
doc ):('text', 'toxicity')
Contoh ( tfds.as_dataframe ):
- Kutipan :
@misc{pavlopoulos2020toxicity,
title={Toxicity Detection: Does Context Really Matter?},
author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}