wikipedia_toxicity_subtypes

  • คำอธิบาย :

ความคิดเห็นในชุดข้อมูลนี้มาจากที่เก็บถาวรของความคิดเห็นในหน้าพูดคุยของวิกิพีเดีย สิ่งเหล่านี้ได้รับคำอธิบายประกอบโดย Jigsaw สำหรับความเป็นพิษ เช่นเดียวกับ (สำหรับการกำหนดค่าหลัก) ประเภทย่อยความเป็นพิษที่หลากหลาย รวมถึงความเป็นพิษรุนแรง ความหยาบคาย ภาษาคุกคาม ภาษาดูถูก และการโจมตีตัวตน ชุดข้อมูลนี้เป็นแบบจำลองของข้อมูลที่เผยแพร่สำหรับการแข่งขัน Jigsaw Toxic Comment Classification Challenge และ Jigsaw Multilingual Toxic Comment Classification บน Kaggle โดยชุดข้อมูลทดสอบจะผสานกับ test_labels ที่เผยแพร่หลังจากสิ้นสุดการแข่งขัน ข้อมูลการทดสอบที่ไม่ได้ใช้สำหรับการให้คะแนนลดลง ชุดข้อมูลนี้เผยแพร่ภายใต้ CC0 เช่นเดียวกับข้อความแสดงความคิดเห็น

  • รหัสแหล่งที่มา : tfds.text.WikipediaToxicitySubtypes

  • รุ่น :

    • 0.2.0 : คุณลักษณะที่อัปเดตเพื่อให้สอดคล้องกับชุดข้อมูล CivilComments
    • 0.3.0 : เพิ่มการกำหนดค่า WikipediaToxicity หลายภาษา
    • 0.3.1 (ค่าเริ่มต้น): เพิ่มรหัสเฉพาะสำหรับแต่ละความคิดเห็น (สำหรับการกำหนดค่าหลายภาษา สิ่งเหล่านี้จะไม่ซ้ำกันในแต่ละการแยกเท่านั้น)
  • ขนาดการดาวน์โหลด : 50.57 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('text', 'toxicity')

  • รูปภาพ ( tfds.show_examples ): ไม่รองรับ

  • การอ้างอิง :

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toxicity_subtypes/EnglishSubtypes (การกำหนดค่าเริ่มต้น)

  • คำอธิบาย การกำหนดค่า : ความคิดเห็นในการกำหนดค่าประเภทย่อยของ WikipediaToxicity มาจากที่เก็บถาวรของความคิดเห็นในหน้าพูดคุยของวิกิพีเดียภาษาอังกฤษ ซึ่ง Jigsaw ได้ใส่คำอธิบายประกอบสำหรับความเป็นพิษ รวมถึงป้ายกำกับประเภทย่อยความเป็นพิษห้ารายการ (ความเป็นพิษรุนแรง อนาจาร คุกคาม ดูหมิ่น ระบุตัวตน_โจมตี) ป้ายกำกับประเภทย่อยความเป็นพิษและความเป็นพิษเป็นค่าไบนารี (0 หรือ 1) ซึ่งบ่งชี้ว่าตัวเขียนคำอธิบายประกอบส่วนใหญ่กำหนดแอตทริบิวต์นั้นให้กับข้อความแสดงความคิดเห็นหรือไม่ การกำหนดค่านี้เป็นแบบจำลองของข้อมูลที่เผยแพร่สำหรับ Jigsaw Toxic Comment Classification Challenge บน Kaggle โดยมีชุดข้อมูลทดสอบรวมกับ test_labels ที่เผยแพร่หลังการแข่งขัน และข้อมูลการทดสอบที่ไม่ได้ใช้สำหรับการให้คะแนนลดลง

ดูเอกสารประกอบของ Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data หรือ https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 สำหรับรายละเอียดเพิ่มเติม

แยก ตัวอย่าง
'test' 63,978
'train' 159,571
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'identity_attack': float32,
    'insult': float32,
    'language': Text(shape=(), dtype=string),
    'obscene': float32,
    'severe_toxicity': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
รหัส ข้อความ สตริง
identity_attack เทนเซอร์ ลอย32
สบประมาท เทนเซอร์ ลอย32
ภาษา ข้อความ สตริง
ลามก เทนเซอร์ ลอย32
รุนแรง_เป็นพิษ เทนเซอร์ ลอย32
ข้อความ ข้อความ สตริง
ภัยคุกคาม เทนเซอร์ ลอย32
ความเป็นพิษ เทนเซอร์ ลอย32

wikipedia_toxicity_subtypes/หลายภาษา

  • คำอธิบาย การกำหนดค่า : ความคิดเห็นในการกำหนดค่าหลายภาษาของ WikipediaToxicity มาจากที่เก็บถาวรของความคิดเห็นในหน้าพูดคุยของ Wikipedia ที่ไม่ใช่ภาษาอังกฤษซึ่งทำหมายเหตุประกอบโดย Jigsaw สำหรับความเป็นพิษ โดยมีค่าไบนารี (0 หรือ 1) ระบุว่าผู้อธิบายประกอบส่วนใหญ่ให้คะแนนข้อความความคิดเห็นว่าเป็นพิษหรือไม่ ความคิดเห็นในการกำหนดค่านี้มีหลายภาษา (ตุรกี อิตาลี สเปน โปรตุเกส รัสเซีย และฝรั่งเศส) การกำหนดค่านี้เป็นแบบจำลองของข้อมูลที่เผยแพร่สำหรับ Jigsaw Multilingual Toxic Comment Classification บน Kaggle โดยมีชุดข้อมูลทดสอบรวมกับ test_labels ที่เผยแพร่หลังการแข่งขัน

ดูเอกสารประกอบของ Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data สำหรับรายละเอียดเพิ่มเติม

แยก ตัวอย่าง
'test' 63,812
'validation' 8,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'language': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'toxicity': float32,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
รหัส ข้อความ สตริง
ภาษา ข้อความ สตริง
ข้อความ ข้อความ สตริง
ความเป็นพิษ เทนเซอร์ ลอย32