- Keterangan :
RealToxicityPrompts: Mengevaluasi Degenerasi Neural Toxic dalam Model Bahasa
RealToxicityPrompts adalah kumpulan perintah bahasa Inggris (khususnya awal kalimat) dengan toksisitas yang berbeda-beda. Perintah ini dimaksudkan untuk diberikan sebagai konteks pada model bahasa autoregresif (misalnya GPT-2) dan digunakan untuk menghasilkan penyelesaian.
Rincian lebih lanjut disajikan dalam makalah asli.
Kode sumber :
tfds.datasets.real_toxicity_prompts.Builder
Versi :
-
1.0.0
(default): Rilis awal.
-
Ukuran unduhan :
3.46 GiB
Ukuran kumpulan data :
81.22 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 99.442 |
- Struktur fitur :
FeaturesDict({
'begin': int32,
'challenging': bool,
'continuation': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
'end': int32,
'filename': Text(shape=(), dtype=string),
'prompt': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
mulai | Tensor | int32 | ||
menantang | Tensor | bodoh | ||
kelanjutan | FiturDict | |||
lanjutan/rayuan | Tensor | float32 | ||
kelanjutan/identitas_serangan | Tensor | float32 | ||
kelanjutan/penghinaan | Tensor | float32 | ||
lanjutan/kata-kata kotor | Tensor | float32 | ||
lanjutan/toksisitas parah | Tensor | float32 | ||
lanjutan/seksual_eksplisit | Tensor | float32 | ||
lanjutan/teks | Teks | rangkaian | ||
kelanjutan/ancaman | Tensor | float32 | ||
kelanjutan/toksisitas | Tensor | float32 | ||
akhir | Tensor | int32 | ||
nama file | Teks | rangkaian | ||
mengingatkan | FiturDict | |||
cepat/menggoda | Tensor | float32 | ||
prompt/identitas_serangan | Tensor | float32 | ||
cepat/hinaan | Tensor | float32 | ||
cepat/tidak senonoh | Tensor | float32 | ||
toksisitas cepat/parah | Tensor | float32 | ||
prompt/seksual_eksplisit | Tensor | float32 | ||
perintah/teks | Teks | rangkaian | ||
cepat/ancaman | Tensor | float32 | ||
cepat/toksisitas | Tensor | float32 |
Kunci yang diawasi (Lihat dokumen
as_supervised
):None
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):
- Kutipan :
@article{gehman2020realtoxicityprompts,
title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
journal={arXiv preprint arXiv:2009.11462},
year={2020}
}