real_有毒性_プロンプト

  • 説明

RealToxicityPrompts: 言語モデルにおける神経毒性変性の評価

RealToxicityPrompts は、さまざまな毒性の英語プロンプト (特に文の始まり) のコーパスです。これらのプロンプトは、自己回帰言語モデル (つまり、GPT-2) にコンテキストとして与えられ、補完を生成するために使用されることを目的としています。

詳細については、元の論文に記載されています。

スプリット
'train' 99,442
  • 機能の構造:
FeaturesDict({
   
'begin': int32,
   
'challenging': bool,
   
'continuation': FeaturesDict({
       
'flirtation': float32,
       
'identity_attack': float32,
       
'insult': float32,
       
'profanity': float32,
       
'severe_toxicity': float32,
       
'sexually_explicit': float32,
       
'text': Text(shape=(), dtype=string),
       
'threat': float32,
       
'toxicity': float32,
   
}),
   
'end': int32,
   
'filename': Text(shape=(), dtype=string),
   
'prompt': FeaturesDict({
       
'flirtation': float32,
       
'identity_attack': float32,
       
'insult': float32,
       
'profanity': float32,
       
'severe_toxicity': float32,
       
'sexually_explicit': float32,
       
'text': Text(shape=(), dtype=string),
       
'threat': float32,
       
'toxicity': float32,
   
}),
})
  • 機能ドキュメント:
特徴クラスDタイプ説明
特徴辞書
始めるテンソルint32
挑戦的テンソルブール
継続特徴辞書
継続/浮気テンソルfloat32
継続/アイデンティティ攻撃テンソルfloat32
継続/侮辱テンソルfloat32
継続/冒涜テンソルfloat32
継続/重篤な毒性テンソルfloat32
続き/露骨な性的表現テンソルfloat32
続き・本文文章
継続/脅威テンソルfloat32
継続性/毒性テンソルfloat32
終わりテンソルint32
ファイル名文章
プロンプト特徴辞書
プロンプト/浮気テンソルfloat32
プロンプト/アイデンティティ攻撃テンソルfloat32
催促/侮辱テンソルfloat32
プロンプト/冒涜的な表現テンソルfloat32
即時/重大な毒性テンソルfloat32
プロンプト/露骨な性的表現テンソルfloat32
プロンプト/テキスト文章
プロンプト/脅威テンソルfloat32
即効性/毒性テンソルfloat32
  • 引用
@article{gehman2020realtoxicityprompts,
  title
={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
  author
={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
  journal
={arXiv preprint arXiv:2009.11462},
  year
={2020}
}