Aprenda o que há de mais recente em aprendizado de máquina, IA generativa e muito mais no WiML Symposium 2023 Registre-se

Esta página foi traduzida pela API Cloud Translation.

real_toxicity_prompts

Descrição :

RealToxicityPrompts: avaliando a degeneração tóxica neural em modelos de linguagem

O RealToxicityPrompts é um corpus de prompts em inglês (especificamente inícios de frases) de toxicidade variada. Esses prompts devem ser fornecidos como contextos para um modelo de linguagem autoregressivo (ou seja, GPT-2) e usados para gerar conclusões.

Mais detalhes são apresentados no artigo original.

Página inicial : https://github.com/allenai/real-toxicity-prompts
Código fonte : tfds.datasets.real_toxicity_prompts.Builder
Versões :
- 1.0.0 (padrão): versão inicial.
Tamanho do download : 3.46 GiB
Tamanho do conjunto de dados : 81.22 MiB
Armazenado em cache automaticamente ( documentação ): Sim
Divisões :

Dividir	Exemplos
`'train'`	99.442

Estrutura de recursos :

FeaturesDict({
    'begin': int32,
    'challenging': bool,
    'continuation': FeaturesDict({
        'flirtation': float32,
        'identity_attack': float32,
        'insult': float32,
        'profanity': float32,
        'severe_toxicity': float32,
        'sexually_explicit': float32,
        'text': Text(shape=(), dtype=string),
        'threat': float32,
        'toxicity': float32,
    }),
    'end': int32,
    'filename': Text(shape=(), dtype=string),
    'prompt': FeaturesDict({
        'flirtation': float32,
        'identity_attack': float32,
        'insult': float32,
        'profanity': float32,
        'severe_toxicity': float32,
        'sexually_explicit': float32,
        'text': Text(shape=(), dtype=string),
        'threat': float32,
        'toxicity': float32,
    }),
})

Documentação de recursos :

Recurso	Aula	Tipo D
	RecursosDict
começar	Tensor	int32
desafiante	Tensor	bool
continuação	RecursosDict
continuação/flerte	Tensor	float32
continuação/identity_attack	Tensor	float32
continuação/insulto	Tensor	float32
continuação/palavrões	Tensor	float32
continuação/toxicidade_severa	Tensor	float32
continuação/sexualmente_explícito	Tensor	float32
continuação/texto	Texto	corda
continuação/ameaça	Tensor	float32
continuação/toxicidade	Tensor	float32
fim	Tensor	int32
nome do arquivo	Texto	corda
incitar	RecursosDict
alerta / flerte	Tensor	float32
prompt/identity_attack	Tensor	float32
alerta/insulto	Tensor	float32
prompt / palavrões	Tensor	float32
alerta/toxicidade_severa	Tensor	float32
prompt/sexualmente_explícito	Tensor	float32
prompt/texto	Texto	corda
alerta/ameaça	Tensor	float32
alerta/toxicidade	Tensor	float32

Chaves supervisionadas (consulte o documento as_supervised ): None
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ): Ausente.
Citação :

@article{gehman2020realtoxicityprompts,
  title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
  author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
  journal={arXiv preprint arXiv:2009.11462},
  year={2020}
}