- Descrição :
RealToxicityPrompts: avaliando a degeneração tóxica neural em modelos de linguagem
O RealToxicityPrompts é um corpus de prompts em inglês (especificamente inícios de frases) de toxicidade variada. Esses prompts devem ser fornecidos como contextos para um modelo de linguagem autoregressivo (ou seja, GPT-2) e usados para gerar conclusões.
Mais detalhes são apresentados no artigo original.
Página inicial : https://github.com/allenai/real-toxicity-prompts
Código fonte :
tfds.datasets.real_toxicity_prompts.Builder
Versões :
-
1.0.0
(padrão): versão inicial.
-
Tamanho do download :
3.46 GiB
Tamanho do conjunto de dados :
81.22 MiB
Armazenado em cache automaticamente ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 99.442 |
- Estrutura de recursos :
FeaturesDict({
'begin': int32,
'challenging': bool,
'continuation': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
'end': int32,
'filename': Text(shape=(), dtype=string),
'prompt': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
})
- Documentação de recursos :
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
começar | Tensor | int32 | ||
desafiante | Tensor | bool | ||
continuação | RecursosDict | |||
continuação/flerte | Tensor | float32 | ||
continuação/identity_attack | Tensor | float32 | ||
continuação/insulto | Tensor | float32 | ||
continuação/palavrões | Tensor | float32 | ||
continuação/toxicidade_severa | Tensor | float32 | ||
continuação/sexualmente_explícito | Tensor | float32 | ||
continuação/texto | Texto | corda | ||
continuação/ameaça | Tensor | float32 | ||
continuação/toxicidade | Tensor | float32 | ||
fim | Tensor | int32 | ||
nome do arquivo | Texto | corda | ||
incitar | RecursosDict | |||
alerta / flerte | Tensor | float32 | ||
prompt/identity_attack | Tensor | float32 | ||
alerta/insulto | Tensor | float32 | ||
prompt / palavrões | Tensor | float32 | ||
alerta/toxicidade_severa | Tensor | float32 | ||
prompt/sexualmente_explícito | Tensor | float32 | ||
prompt/texto | Texto | corda | ||
alerta/ameaça | Tensor | float32 | ||
alerta/toxicidade | Tensor | float32 |
Chaves supervisionadas (consulte o documento
as_supervised
):None
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ): Ausente.
Citação :
@article{gehman2020realtoxicityprompts,
title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
journal={arXiv preprint arXiv:2009.11462},
year={2020}
}