real_toxicity_prompts

  • คำอธิบาย :

RealToxicityPrompts: การประเมินความเสื่อมของพิษต่อระบบประสาทในแบบจำลองภาษา

RealToxicityPrompts เป็นคลังข้อความแจ้งภาษาอังกฤษ (โดยเฉพาะจุดเริ่มต้นของประโยค) ของความเป็นพิษที่แตกต่างกัน ข้อความแจ้งเหล่านี้มีไว้เพื่อใช้เป็นบริบทของโมเดลภาษาแบบถอยหลังอัตโนมัติ (เช่น GPT-2) และใช้สำหรับสร้างความสมบูรณ์

รายละเอียดเพิ่มเติมแสดงอยู่ใน รายงาน ต้นฉบับ

แยก ตัวอย่าง
'train' 99,442
  • โครงสร้างคุณสมบัติ :
FeaturesDict({
    'begin': int32,
    'challenging': bool,
    'continuation': FeaturesDict({
        'flirtation': float32,
        'identity_attack': float32,
        'insult': float32,
        'profanity': float32,
        'severe_toxicity': float32,
        'sexually_explicit': float32,
        'text': Text(shape=(), dtype=string),
        'threat': float32,
        'toxicity': float32,
    }),
    'end': int32,
    'filename': Text(shape=(), dtype=string),
    'prompt': FeaturesDict({
        'flirtation': float32,
        'identity_attack': float32,
        'insult': float32,
        'profanity': float32,
        'severe_toxicity': float32,
        'sexually_explicit': float32,
        'text': Text(shape=(), dtype=string),
        'threat': float32,
        'toxicity': float32,
    }),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง ประเภทD คำอธิบาย
คุณสมบัติDict
เริ่ม เทนเซอร์ int32
ที่ท้าทาย เทนเซอร์ บูล
ความต่อเนื่อง คุณสมบัติDict
ความต่อเนื่อง/การเกี้ยวพาราสี เทนเซอร์ ลอย32
ความต่อเนื่อง/identity_attack เทนเซอร์ ลอย32
ความต่อเนื่อง/การดูถูก เทนเซอร์ ลอย32
ความต่อเนื่อง/คำหยาบคาย เทนเซอร์ ลอย32
ความต่อเนื่อง/ความเป็นพิษรุนแรง เทนเซอร์ ลอย32
ความต่อเนื่อง / ทางเพศ_ชัดเจน เทนเซอร์ ลอย32
ความต่อเนื่อง/ข้อความ ข้อความ เชือก
ความต่อเนื่อง/ภัยคุกคาม เทนเซอร์ ลอย32
ความต่อเนื่อง/ความเป็นพิษ เทนเซอร์ ลอย32
จบ เทนเซอร์ int32
ชื่อไฟล์ ข้อความ เชือก
พร้อมท์ คุณสมบัติDict
พรอมต์/เกี้ยวพาราสี เทนเซอร์ ลอย32
พรอมต์/identity_attack เทนเซอร์ ลอย32
พรอมต์/ดูถูก เทนเซอร์ ลอย32
พรอมต์/คำหยาบคาย เทนเซอร์ ลอย32
prompt/severe_toxicity เทนเซอร์ ลอย32
พรอมต์ / ทางเพศ_โจ่งแจ้ง เทนเซอร์ ลอย32
พรอมต์/ข้อความ ข้อความ เชือก
พรอมต์/ภัยคุกคาม เทนเซอร์ ลอย32
พรอมต์/ความเป็นพิษ เทนเซอร์ ลอย32
  • การอ้างอิง :
@article{gehman2020realtoxicityprompts,
  title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
  author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
  journal={arXiv preprint arXiv:2009.11462},
  year={2020}
}