- شرح :
RealToxicityPrompts: ارزیابی انحطاط سمی عصبی در مدلهای زبان
RealToxicityPrompts مجموعهای از اعلانهای انگلیسی (بهویژه آغاز جملات) با سمیت متفاوت است. این اعلانها بهعنوان زمینهای برای یک مدل زبان خودرگرسیون (یعنی GPT-2) ارائه میشوند و برای ایجاد تکمیلها استفاده میشوند.
جزئیات بیشتر در مقاله اصلی ارائه شده است.
صفحه اصلی : https://github.com/allenai/real-toxicity-prompts
نسخه ها :
-
1.0.0
(پیش فرض): انتشار اولیه.
-
حجم دانلود :
3.46 GiB
حجم مجموعه داده :
81.22 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 99,442 |
- ساختار ویژگی :
FeaturesDict({
'begin': int32,
'challenging': bool,
'continuation': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
'end': int32,
'filename': Text(shape=(), dtype=string),
'prompt': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
شروع | تانسور | int32 | ||
چالش برانگیز | تانسور | بوول | ||
ادامه | FeaturesDict | |||
ادامه/ معاشقه | تانسور | float32 | ||
Continuation/identity_attack | تانسور | float32 | ||
ادامه / توهین | تانسور | float32 | ||
ادامه / فحاشی | تانسور | float32 | ||
ادامه/سمیت_شدید | تانسور | float32 | ||
ادامه/جنسی_صریح | تانسور | float32 | ||
ادامه / متن | متن | رشته | ||
ادامه/تهدید | تانسور | float32 | ||
ادامه / سمیت | تانسور | float32 | ||
پایان | تانسور | int32 | ||
نام فایل | متن | رشته | ||
سریع | FeaturesDict | |||
سریع / معاشقه | تانسور | float32 | ||
prompt/identity_attack | تانسور | float32 | ||
سریع / توهین | تانسور | float32 | ||
سریع / ناسزا | تانسور | float32 | ||
prompt/severe_toxicity | تانسور | float32 | ||
prompt/sexually_explicit | تانسور | float32 | ||
اعلان / متن | متن | رشته | ||
اعلان / تهدید | تانسور | float32 | ||
سریع / سمیت | تانسور | float32 |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@article{gehman2020realtoxicityprompts,
title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
journal={arXiv preprint arXiv:2009.11462},
year={2020}
}