Civil_comments

  • Mô tả :

Phiên bản này của Tập dữ liệu CivilComments cung cấp quyền truy cập vào bảy nhãn chính đã được chú thích bởi các nhân viên đám đông, độc tính và các thẻ khác có giá trị từ 0 đến 1 cho biết phần nhỏ các chú thích đã gán các thuộc tính này cho văn bản nhận xét.

Các thẻ khác chỉ có sẵn cho một phần nhỏ của các ví dụ đầu vào. Chúng hiện đang bị bỏ qua đối với tập dữ liệu chính; tập hợp CivilCommentsIdentities bao gồm các nhãn đó, nhưng chỉ bao gồm tập hợp con của dữ liệu với chúng. Các thuộc tính khác là một phần của bản phát hành CivilComments ban đầu chỉ được đưa vào dữ liệu thô. Xem tài liệu Kaggle để biết thêm chi tiết về các tính năng có sẵn.

Các bình luận trong tập dữ liệu này đến từ một kho lưu trữ của nền tảng Civil Comments, một plugin bình luận dành cho các trang tin tức độc lập. Những bình luận công khai này được tạo ra từ năm 2015 - 2017 và đã xuất hiện trên khoảng 50 trang tin tức tiếng Anh trên khắp thế giới. Khi Civil Comments ngừng hoạt động vào năm 2017, họ đã chọn cung cấp các bình luận công khai trong một kho lưu trữ mở lâu dài để cho phép nghiên cứu trong tương lai. Dữ liệu gốc, được xuất bản trên figshare, bao gồm văn bản nhận xét công khai, một số siêu dữ liệu liên quan như ID bài viết, dấu thời gian và nhãn "dân sự" do người bình luận tạo, nhưng không bao gồm id người dùng. Jigsaw đã mở rộng tập dữ liệu này bằng cách thêm các nhãn bổ sung cho tính độc hại, đề cập danh tính, cũng như sự công kích bí mật. Tập dữ liệu này là bản sao chính xác của dữ liệu được phát hành cho thử thách Ghép hình Thiên vị không mong muốn trong phân loại độc tính Kaggle. Tập dữ liệu này được phát hành theo CC0, cũng như văn bản bình luận bên dưới.

Đối với các nhận xét có thêm parent_id trong dữ liệu nhận xét dân sự, văn bản của nhận xét trước đó được cung cấp dưới dạng tính năng "parent_text". Lưu ý rằng sự phân tách được thực hiện mà không liên quan đến thông tin này, vì vậy việc sử dụng các bình luận trước đó có thể làm rò rỉ một số thông tin. Người chú thích không có quyền truy cập vào văn bản gốc khi tạo nhãn.

  • Trang chủ : https://www.kaggle.com/c/jigsaw-unintosystem-bias-in-toxicity-classification/data

  • Mã nguồn : tfds.text.CivilComments

  • Các phiên bản :

    • 1.0.0 : Bản phát hành đầy đủ ban đầu.
    • 1.0.1 : Đã thêm một id duy nhất cho mỗi nhận xét.
    • 1.1.0 : Đã thêm cấu hình CivilCommentsCovert.
    • 1.1.1 : Đã thêm cấu hình CivilCommentsCovert với tổng kiểm tra chính xác.
    • 1.1.2 : Đã thêm trích dẫn riêng cho bộ dữ liệu CivilCommentsCovert.
    • 1.1.3 : Đã sửa các kiểu id từ float thành string.
    • 1.2.0 : Thêm các nhịp độc hại, ngữ cảnh và các tính năng văn bản nhận xét dành cho phụ huynh.
    • 1.2.1 : Sửa lỗi định dạng không chính xác trong phần tách ngữ cảnh.
    • 1.2.2 : Cập nhật để phản ánh ngữ cảnh chỉ có phân đoạn tàu.
    • 1.2.3 (mặc định) : Thêm cảnh báo vào CivilCommentsCovert khi chúng tôi khắc phục sự cố dữ liệu.
  • Kích thước tải xuống : 427.41 MiB

  • Hình ( tfds.show_examples ): Không được hỗ trợ.

Civil_comments / CivilComments (cấu hình mặc định)

  • Mô tả cấu hình : Bộ CivilComments ở đây bao gồm tất cả dữ liệu, nhưng chỉ có bảy nhãn cơ bản (độc hại, mức độ độc hại nghiêm trọng, khiêu dâm, đe dọa, xúc phạm, nhận dạng_tình cảm và tình_ dục).

  • Kích thước tập dữ liệu : 1.39 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 97.320
'train' 1.804.874
'validation' 97.320
  • Cấu trúc tính năng :
FeaturesDict({
    'article_id': tf.int32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'obscene': tf.float32,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Các tính năng
ID bài viết Tensor tf.int32
Tôi Tensor tf.string
ID_attack Tensor tf.float32
sự sỉ nhục Tensor tf.float32
tục tĩu Tensor tf.float32
ID cha mẹ Tensor tf.int32
parent_text Chữ tf.string
độc_lực nghiêm trọng Tensor tf.float32
sex_explicit Tensor tf.float32
chữ Chữ tf.string
mối đe dọa Tensor tf.float32
độc tính Tensor tf.float32
  • Trích dẫn :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Civil_comments / CivilCommentsIdentities

  • Mô tả cấu hình : Bộ CivilCommentsIdentities ở đây bao gồm một tập hợp các nhãn nhận dạng mở rộng ngoài bảy nhãn cơ bản. Tuy nhiên, nó chỉ bao gồm tập hợp con (khoảng một phần tư) dữ liệu có tất cả các tính năng này.

  • Kích thước tập dữ liệu: 622.02 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 21.577
'train' 405.130
'validation' 21.293
  • Cấu trúc tính năng :
FeaturesDict({
    'article_id': tf.int32,
    'asian': tf.float32,
    'atheist': tf.float32,
    'bisexual': tf.float32,
    'black': tf.float32,
    'buddhist': tf.float32,
    'christian': tf.float32,
    'female': tf.float32,
    'heterosexual': tf.float32,
    'hindu': tf.float32,
    'homosexual_gay_or_lesbian': tf.float32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'intellectual_or_learning_disability': tf.float32,
    'jewish': tf.float32,
    'latino': tf.float32,
    'male': tf.float32,
    'muslim': tf.float32,
    'obscene': tf.float32,
    'other_disability': tf.float32,
    'other_gender': tf.float32,
    'other_race_or_ethnicity': tf.float32,
    'other_religion': tf.float32,
    'other_sexual_orientation': tf.float32,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'physical_disability': tf.float32,
    'psychiatric_or_mental_illness': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'transgender': tf.float32,
    'white': tf.float32,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Các tính năng
ID bài viết Tensor tf.int32
Châu Á Tensor tf.float32
vô thần Tensor tf.float32
lưỡng tính Tensor tf.float32
màu đen Tensor tf.float32
phật tử Tensor tf.float32
christian Tensor tf.float32
giống cái Tensor tf.float32
dị tính Tensor tf.float32
hindu Tensor tf.float32
homosex_gay_or_lesbian Tensor tf.float32
Tôi Tensor tf.string
ID_attack Tensor tf.float32
sự sỉ nhục Tensor tf.float32
Trí tuệ_or_learning_disability Tensor tf.float32
jewish Tensor tf.float32
latino Tensor tf.float32
Nam giới Tensor tf.float32
Hồi Tensor tf.float32
tục tĩu Tensor tf.float32
other_disability Tensor tf.float32
khác_ giới tính Tensor tf.float32
other_race_or_eosystemity Tensor tf.float32
other_religion Tensor tf.float32
other_uality_orientation Tensor tf.float32
ID cha mẹ Tensor tf.int32
parent_text Chữ tf.string
khuyết tật về thể chất Tensor tf.float32
Psychoatric_or_mental_illness Tensor tf.float32
độc_lực nghiêm trọng Tensor tf.float32
sex_explicit Tensor tf.float32
chữ Chữ tf.string
mối đe dọa Tensor tf.float32
độc tính Tensor tf.float32
chuyển giới Tensor tf.float32
trắng Tensor tf.float32
  • Trích dẫn :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Civil_comments / CivilCommentsCovert

  • Mô tả cấu hình : CẢNH BÁO: có một vấn đề chất lượng dữ liệu tiềm ẩn với CivilCommentsCovert mà chúng tôi đang tích cực khắc phục (28/06/22); dữ liệu cơ bản có thể thay đổi!

Bộ CivilCommentsCovert là một tập hợp con của CivilCommentsIdentities với ~ 20% phần tách tàu và thử nghiệm được chú thích thêm về tính tấn công bí mật, bên cạnh tính độc hại và nhãn nhận dạng. Người đánh giá được yêu cầu phân loại các nhận xét là một trong các nhận xét một cách rõ ràng, ẩn ý, ​​không hoặc không chắc chắn có xúc phạm hay không, cũng như liệu nó có chứa các loại xúc phạm bí mật khác nhau hay không. Quy trình chú thích đầy đủ được trình bày chi tiết trong một bài báo sắp xuất bản tại https://sites.google.com/corp/view/hciandnlp/accepted-papers

  • Kích thước tập dữ liệu : 94.12 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 2.455
'train' 48.074
  • Cấu trúc tính năng :
FeaturesDict({
    'article_id': tf.int32,
    'asian': tf.float32,
    'atheist': tf.float32,
    'bisexual': tf.float32,
    'black': tf.float32,
    'buddhist': tf.float32,
    'christian': tf.float32,
    'covert_emoticons_emojis': tf.float32,
    'covert_humor': tf.float32,
    'covert_masked_harm': tf.float32,
    'covert_microaggression': tf.float32,
    'covert_obfuscation': tf.float32,
    'covert_political': tf.float32,
    'covert_sarcasm': tf.float32,
    'explicitly_offensive': tf.float32,
    'female': tf.float32,
    'heterosexual': tf.float32,
    'hindu': tf.float32,
    'homosexual_gay_or_lesbian': tf.float32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'implicitly_offensive': tf.float32,
    'insult': tf.float32,
    'intellectual_or_learning_disability': tf.float32,
    'jewish': tf.float32,
    'latino': tf.float32,
    'male': tf.float32,
    'muslim': tf.float32,
    'not_offensive': tf.float32,
    'not_sure_offensive': tf.float32,
    'obscene': tf.float32,
    'other_disability': tf.float32,
    'other_gender': tf.float32,
    'other_race_or_ethnicity': tf.float32,
    'other_religion': tf.float32,
    'other_sexual_orientation': tf.float32,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'physical_disability': tf.float32,
    'psychiatric_or_mental_illness': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'transgender': tf.float32,
    'white': tf.float32,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Các tính năng
ID bài viết Tensor tf.int32
Châu Á Tensor tf.float32
vô thần Tensor tf.float32
lưỡng tính Tensor tf.float32
màu đen Tensor tf.float32
phật tử Tensor tf.float32
christian Tensor tf.float32
covert_emoticons_emojis Tensor tf.float32
covert_humor Tensor tf.float32
covert_masked_harm Tensor tf.float32
covert_microaggression Tensor tf.float32
covert_obfuscation Tensor tf.float32
covert_political Tensor tf.float32
covert_sarcasm Tensor tf.float32
explicit_offensive Tensor tf.float32
giống cái Tensor tf.float32
dị tính Tensor tf.float32
hindu Tensor tf.float32
homosex_gay_or_lesbian Tensor tf.float32
Tôi Tensor tf.string
ID_attack Tensor tf.float32
implicit_offensive Tensor tf.float32
sự sỉ nhục Tensor tf.float32
Trí tuệ_or_learning_disability Tensor tf.float32
jewish Tensor tf.float32
latino Tensor tf.float32
Nam giới Tensor tf.float32
Hồi Tensor tf.float32
not_offensive Tensor tf.float32
not_sure_offensive Tensor tf.float32
tục tĩu Tensor tf.float32
other_disability Tensor tf.float32
khác_ giới tính Tensor tf.float32
other_race_or_e domainsity Tensor tf.float32
other_religion Tensor tf.float32
other_uality_orientation Tensor tf.float32
ID cha mẹ Tensor tf.int32
parent_text Chữ tf.string
khuyết tật về thể chất Tensor tf.float32
Psychoatric_or_mental_illness Tensor tf.float32
độc_lực nghiêm trọng Tensor tf.float32
sex_explicit Tensor tf.float32
chữ Chữ tf.string
mối đe dọa Tensor tf.float32
độc tính Tensor tf.float32
chuyển giới Tensor tf.float32
trắng Tensor tf.float32
  • Trích dẫn :
@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}

Civil_comments / CivilCommentsToxicSpans

  • Mô tả cấu hình : CivilComments Toxic Spans là một tập hợp con của CivilComments được gắn nhãn ở cấp độ nhịp - các chỉ số của tất cả các ranh giới ký tự (điểm mã unicode) đã được gắn thẻ là độc hại bởi phần lớn các chú thích được trả về trong tính năng 'nhịp'.

  • Kích thước tập dữ liệu : 5.03 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'test' 2.000
'train' 7.939
'validation' 682
  • Cấu trúc tính năng :
FeaturesDict({
    'article_id': tf.int32,
    'id': tf.string,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'spans': Tensor(shape=(None,), dtype=tf.int32),
    'text': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Các tính năng
ID bài viết Tensor tf.int32
Tôi Tensor tf.string
ID cha mẹ Tensor tf.int32
parent_text Chữ tf.string
nhịp Tensor (Không có,) tf.int32
chữ Chữ tf.string
  • Trích dẫn :
@inproceedings{pavlopoulos-etal-2021-semeval,
    title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
    author = "Pavlopoulos, John  and Sorensen, Jeffrey  and Laugier, L{'e}o and Androutsopoulos, Ion",
    booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.semeval-1.6",
    doi = "10.18653/v1/2021.semeval-1.6",
    pages = "59--69",
}

Civil_comments / CivilCommentsInContext

  • Mô tả cấu hình : CivilComments in Context là một tập hợp con của CivilComments đã được gắn nhãn bằng cách cung cấp cho người gắn nhãn văn bản gốc. Nó bao gồm một tính năng theo ngữ cảnh_toxicity.

  • Kích thước tập dữ liệu : 8.90 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có

  • Tách :

Tách ra Các ví dụ
'train' 9,969
  • Cấu trúc tính năng :
FeaturesDict({
    'article_id': tf.int32,
    'contextual_toxicity': tf.float32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'obscene': tf.float32,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Các tính năng
ID bài viết Tensor tf.int32
contextual_toxicity Tensor tf.float32
Tôi Tensor tf.string
ID_attack Tensor tf.float32
sự sỉ nhục Tensor tf.float32
tục tĩu Tensor tf.float32
ID cha mẹ Tensor tf.int32
parent_text Chữ tf.string
độc_lực nghiêm trọng Tensor tf.float32
sex_explicit Tensor tf.float32
chữ Chữ tf.string
mối đe dọa Tensor tf.float32
độc tính Tensor tf.float32
  • Trích dẫn :
@misc{pavlopoulos2020toxicity,
    title={Toxicity Detection: Does Context Really Matter?},
    author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
    year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}