sipil_komentar

  • Deskripsi :

Versi CivilComments Dataset ini menyediakan akses ke tujuh label utama yang dianotasi oleh pekerja kerumunan, toksisitas dan tag lainnya adalah nilai antara 0 dan 1 yang menunjukkan fraksi annotator yang menetapkan atribut ini ke teks komentar.

Tag lain hanya tersedia untuk sebagian kecil dari contoh masukan. Mereka saat ini diabaikan untuk kumpulan data utama; set CivilCommentsIdentities menyertakan label tersebut, tetapi hanya terdiri dari subset data bersamanya. Atribut lain yang merupakan bagian dari rilis CivilComments asli hanya disertakan dalam data mentah. Lihat dokumentasi Kaggle untuk detail lebih lanjut tentang fitur yang tersedia.

Komentar dalam kumpulan data ini berasal dari arsip platform Civil Comments, sebuah plugin komentar untuk situs berita independen. Komentar publik ini dibuat dari tahun 2015 - 2017 dan muncul di sekitar 50 situs berita berbahasa Inggris di seluruh dunia. Ketika Komentar Sipil ditutup pada tahun 2017, mereka memilih untuk membuat komentar publik tersedia dalam arsip terbuka yang tahan lama untuk memungkinkan penelitian di masa mendatang. Data asli, yang dipublikasikan di figshare, mencakup teks komentar publik, beberapa metadata terkait seperti ID artikel, ID publikasi, stempel waktu, dan label "kesopanan" yang dibuat oleh pemberi komentar, tetapi tidak menyertakan id pengguna. Jigsaw memperluas kumpulan data ini dengan menambahkan label tambahan untuk toksisitas, penyebutan identitas, serta serangan terselubung. Kumpulan data ini adalah replika persis dari data yang dirilis untuk Jigsaw Unintended Bias in Toxicity Classification Kaggle challenge. Kumpulan data ini dirilis di bawah CC0, seperti teks komentar yang mendasarinya.

Untuk komentar yang memiliki parent_id juga di data komentar sipil, teks komentar sebelumnya disediakan sebagai fitur "parent_text". Perhatikan bahwa pemisahan dilakukan tanpa memperhatikan informasi ini, jadi menggunakan komentar sebelumnya dapat membocorkan beberapa informasi. Anotator tidak memiliki akses ke teks induk saat membuat label.

  • Beranda : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data

  • Kode sumber : tfds.text.CivilComments

  • Versi :

    • 1.0.0 : Rilis penuh awal.
    • 1.0.1 : Menambahkan id unik untuk setiap komentar.
    • 1.1.0 : Menambahkan konfigurasi CivilCommentsCovert.
    • 1.1.1 : Menambahkan konfigurasi CivilCommentsCovert dengan checksum yang benar.
    • 1.1.2 : Menambahkan kutipan terpisah untuk kumpulan data CivilCommentsCovert.
    • 1.1.3 : Memperbaiki tipe id dari float ke string.
    • 1.2.0 : Menambahkan fitur teks span, konteks, dan komentar induk yang beracun.
    • 1.2.1 : Perbaiki pemformatan yang salah dalam pemisahan konteks.
    • 1.2.2 : Perbarui untuk mencerminkan konteks yang hanya memiliki pemisahan kereta.
    • 1.2.3 : Tambahkan peringatan ke CivilCommentsCovert saat kami memperbaiki masalah data.
    • 1.2.4 (default): Tambahkan ID publikasi dan stempel waktu komentar.
  • Ukuran unduhan : 427.41 MiB

  • Gambar ( tfds.show_examples ): Tidak didukung.

civil_comments/CivilComments (konfigurasi default)

  • Deskripsi konfigurasi : CivilComments yang diatur di sini mencakup semua data, tetapi hanya tujuh label dasar (toksisitas, toksisitas_berat, cabul, ancaman, penghinaan, serangan_identitas, dan seksual_eksplisit).

  • Ukuran dataset : 1.54 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'test' 97.320
'train' 1.804.874
'validation' 97.320
  • Struktur fitur :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
article_id Tensor int32
tanggal_dibuat Tensor rangkaian
pengenal Tensor rangkaian
identity_attack Tensor float32
menyinggung Tensor float32
cabul Tensor float32
identitas orang tua Tensor int32
parent_text Teks rangkaian
publikasi_id Tensor rangkaian
parah_toksisitas Tensor float32
seksual_eksplisit Tensor float32
teks Teks rangkaian
ancaman Tensor float32
toksisitas Tensor float32
  • Kutipan :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments/CivilCommentsIdentities

  • Deskripsi konfigurasi : CivilCommentsIdentities yang diatur di sini menyertakan serangkaian label identitas tambahan selain tujuh label dasar. Namun, ini hanya mencakup sebagian (kira-kira seperempat) data dengan semua fitur ini.

  • Ukuran dataset : 654.97 MiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'test' 21.577
'train' 405.130
'validation' 21.293
  • Struktur fitur :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'created_date': string,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
article_id Tensor int32
Asia Tensor float32
ateis Tensor float32
biseksual Tensor float32
hitam Tensor float32
Buddhis Tensor float32
Kristen Tensor float32
tanggal_dibuat Tensor rangkaian
perempuan Tensor float32
heteroseks Tensor float32
Hindu Tensor float32
homoseksual_gay_or_lesbian Tensor float32
pengenal Tensor rangkaian
identity_attack Tensor float32
menyinggung Tensor float32
intelektual_atau_ketidakmampuan_belajar Tensor float32
Yahudi Tensor float32
latin Tensor float32
pria Tensor float32
Muslim Tensor float32
cabul Tensor float32
other_disability Tensor float32
other_gender Tensor float32
other_race_or_ethnicity Tensor float32
agama_lain Tensor float32
other_sexual_orientation Tensor float32
identitas orang tua Tensor int32
parent_text Teks rangkaian
cacat fisik Tensor float32
psikiatri_atau_mental_penyakit Tensor float32
publikasi_id Tensor rangkaian
parah_toksisitas Tensor float32
seksual_eksplisit Tensor float32
teks Teks rangkaian
ancaman Tensor float32
toksisitas Tensor float32
transgender Tensor float32
putih Tensor float32
  • Kutipan :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments/CivilCommentsCovert

  • Deskripsi konfigurasi : PERINGATAN: ada potensi masalah kualitas data dengan CivilCommentsCovert yang sedang kami perbaiki secara aktif (28/06/22); data yang mendasarinya dapat berubah!

Set CivilCommentsCovert adalah subset dari CivilCommentsIdentities dengan ~20% dari train dan test split yang dianotasi lebih lanjut untuk serangan terselubung, selain label toksisitas dan identitas. Penilai diminta untuk mengkategorikan komentar sebagai salah satu komentar yang secara eksplisit, implisit, tidak, atau tidak yakin apakah menyinggung, serta apakah itu berisi berbagai jenis serangan terselubung. Prosedur anotasi lengkap dirinci dalam makalah yang akan datang di https://sites.google.com/corp/view/hciandnlp/accepted-papers

  • Ukuran dataset : 97.83 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'test' 2.455
'train' 48.074
  • Struktur fitur :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'covert_emoticons_emojis': float32,
    'covert_humor': float32,
    'covert_masked_harm': float32,
    'covert_microaggression': float32,
    'covert_obfuscation': float32,
    'covert_political': float32,
    'covert_sarcasm': float32,
    'created_date': string,
    'explicitly_offensive': float32,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'implicitly_offensive': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'not_offensive': float32,
    'not_sure_offensive': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
article_id Tensor int32
Asia Tensor float32
ateis Tensor float32
biseksual Tensor float32
hitam Tensor float32
Buddhis Tensor float32
Kristen Tensor float32
covert_emoticons_emojis Tensor float32
rahasia_humor Tensor float32
covert_masked_harm Tensor float32
terselubung_microaggression Tensor float32
rahasia_kebingungan Tensor float32
rahasia_politik Tensor float32
sarkasme terselubung Tensor float32
tanggal_dibuat Tensor rangkaian
eksplisit_ofensif Tensor float32
perempuan Tensor float32
heteroseks Tensor float32
Hindu Tensor float32
homoseksual_gay_or_lesbian Tensor float32
pengenal Tensor rangkaian
identity_attack Tensor float32
secara implisit_ofensif Tensor float32
menyinggung Tensor float32
intelektual_atau_ketidakmampuan_belajar Tensor float32
Yahudi Tensor float32
latin Tensor float32
pria Tensor float32
Muslim Tensor float32
not_ofensif Tensor float32
not_sure_offensive Tensor float32
cabul Tensor float32
other_disability Tensor float32
other_gender Tensor float32
other_race_or_ethnicity Tensor float32
agama_lain Tensor float32
other_sexual_orientation Tensor float32
identitas orang tua Tensor int32
parent_text Teks rangkaian
cacat fisik Tensor float32
psikiatri_atau_mental_penyakit Tensor float32
publikasi_id Tensor rangkaian
parah_toksisitas Tensor float32
seksual_eksplisit Tensor float32
teks Teks rangkaian
ancaman Tensor float32
toksisitas Tensor float32
transgender Tensor float32
putih Tensor float32
  • Kutipan :
@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}

civil_comments/CivilCommentsToxicSpans

  • Deskripsi konfigurasi : CivilComments Toxic Spans adalah bagian dari CivilComments yang diberi label pada tingkat span - indeks semua batas karakter (unicode codepoints) yang ditandai sebagai toxic oleh sebagian besar anotator dikembalikan dalam fitur 'spans'.

  • Ukuran dataset : 5.81 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'test' 2.000
'train' 7.939
'validation' 682
  • Struktur fitur :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'spans': Tensor(shape=(None,), dtype=int32),
    'text': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
article_id Tensor int32
tanggal_dibuat Tensor rangkaian
pengenal Tensor rangkaian
identitas orang tua Tensor int32
parent_text Teks rangkaian
publikasi_id Tensor rangkaian
rentang Tensor (Tidak ada,) int32
teks Teks rangkaian
  • Kutipan :
@inproceedings{pavlopoulos-etal-2021-semeval,
    title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
    author = "Pavlopoulos, John  and Sorensen, Jeffrey  and Laugier, L{'e}o and Androutsopoulos, Ion",
    booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.semeval-1.6",
    doi = "10.18653/v1/2021.semeval-1.6",
    pages = "59--69",
}

civil_comments/CivilCommentsInContext

  • Deskripsi konfigurasi : CivilComments in Context adalah bagian dari CivilComments yang diberi label dengan menyediakan parent_text kepada pemberi label. Ini termasuk fitur contextual_toxicity.

  • Ukuran dataset : 9.63 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 9.969
  • Struktur fitur :
FeaturesDict({
    'article_id': int32,
    'contextual_toxicity': float32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
article_id Tensor int32
kontekstual_toksisitas Tensor float32
tanggal_dibuat Tensor rangkaian
pengenal Tensor rangkaian
identity_attack Tensor float32
menyinggung Tensor float32
cabul Tensor float32
identitas orang tua Tensor int32
parent_text Teks rangkaian
publikasi_id Tensor rangkaian
parah_toksisitas Tensor float32
seksual_eksplisit Tensor float32
teks Teks rangkaian
ancaman Tensor float32
toksisitas Tensor float32
  • Kutipan :
@misc{pavlopoulos2020toxicity,
    title={Toxicity Detection: Does Context Really Matter?},
    author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
    year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}