wikipedia_toxicity_subtypes

  • Mô tả:

Các bình luận trong tập dữ liệu này đến từ một kho lưu trữ các bình luận của trang thảo luận Wikipedia. Chúng đã được Jigsaw chú thích về độc tính, cũng như (đối với cấu hình chính) nhiều loại phụ độc tính khác nhau, bao gồm độc tính nghiêm trọng, tục tĩu, ngôn ngữ đe dọa, ngôn ngữ xúc phạm và tấn công danh tính. Tập dữ liệu này là bản sao của dữ liệu được phát hành cho Thử thách phân loại bình luận độc tố ghép hình và cuộc thi phân loại bình luận độc tố đa ngôn ngữ ghép hình trên Kaggle, với tập dữ liệu thử nghiệm được hợp nhất với test_labels được phát hành sau khi kết thúc cuộc thi. Dữ liệu kiểm tra không được sử dụng để cho điểm đã bị loại bỏ. Tập dữ liệu này được phát hành theo CC0, cũng như văn bản bình luận bên dưới.

  • Source code: tfds.text.WikipediaToxicitySubtypes

  • phiên bản:

    • 0.2.0 : tính năng cập nhật cho phù hợp với CivilComments tập dữ liệu.
    • 0.3.0 : Added WikipediaToxicityMultilingual config.
    • 0.3.1 (mặc định): Thêm một id duy nhất cho mỗi bình luận. (Đối với cấu hình Đa ngôn ngữ, những cấu hình này chỉ là duy nhất trong mỗi phần tách.)
  • Dung lượng tải về: 50.57 MiB

  • Tự động lưu trữ ( tài liệu ): Có

  • Phím giám sát (Xem as_supervised doc ): ('text', 'toxicity')

  • Hình ( tfds.show_examples ): Không được hỗ trợ.

  • Trích dẫn:

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toxicity_subtypes / EnglishSubtypes (mặc định config)

  • Config mô tả: Các bình luận trong WikipediaToxicitySubtypes cấu hình từ một kho lưu trữ của English Wikipedia comments trang thảo luận đã được chú thích bởi Jigsaw cho độc tính, cũng như các nhãn kiểu phụ lăm độc tính (độc tính nghiêm trọng, tục tĩu, đe dọa, xúc phạm, identity_attack). Các nhãn phụ loại độc tính và độc tính là các giá trị nhị phân (0 hoặc 1) cho biết liệu phần lớn các chú thích có gán thuộc tính đó cho văn bản nhận xét hay không. Cấu hình này là bản sao của dữ liệu được phát hành cho Thử thách phân loại nhận xét chất độc ghép hình trên Kaggle, với tập dữ liệu thử nghiệm được kết hợp với nhãn test_labels được phát hành sau cuộc thi và dữ liệu thử nghiệm không được sử dụng để chấm điểm bị giảm.

Xem tài liệu Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data hoặc https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 để biết thêm chi tiết.

Tách ra Các ví dụ
'test' 63,978
'train' 159.571
  • Các tính năng:
FeaturesDict({
    'id': Text(shape=(), dtype=tf.string),
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'language': Text(shape=(), dtype=tf.string),
    'obscene': tf.float32,
    'severe_toxicity': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})

wikipedia_toxicity_subtypes / đa ngôn ngữ

  • Config mô tả: Các bình luận trong WikipediaToxicityMultilingual cấu hình ở đây là từ một kho lưu trữ của không phải tiếng Anh Wikipedia comments trang thảo luận chú thích bởi Jigsaw cho độc tính, với một giá trị nhị phân (0 hoặc 1) chỉ ra cho dù đa số annotators đánh giá văn bản bình luận như độc hại. Các nhận xét trong cấu hình này bằng nhiều ngôn ngữ khác nhau (tiếng Thổ Nhĩ Kỳ, tiếng Ý, tiếng Tây Ban Nha, tiếng Bồ Đào Nha, tiếng Nga và tiếng Pháp). Cấu hình này là bản sao của dữ liệu được phát hành cho Phân loại nhận xét chất độc đa ngôn ngữ ghép hình trên Kaggle, với tập dữ liệu thử nghiệm được kết hợp với test_labels được phát hành sau cuộc thi.

Xem tài liệu Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data để biết thêm chi tiết.

Tách ra Các ví dụ
'test' 63.812
'validation' 8.000
  • Các tính năng:
FeaturesDict({
    'id': Text(shape=(), dtype=tf.string),
    'language': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'toxicity': tf.float32,
})