- Descrição :
databricks-dolly-15k
é um conjunto de dados de código aberto de registros de seguimento de instruções usado no treinamento databricks/dolly-v2-12b que foi gerado por milhares de funcionários da Databricks em várias das categorias comportamentais descritas no artigo InstructGPT , incluindo brainstorming, classificação, controle de qualidade fechado, geração, extração de informações, controle de qualidade aberto e resumo.
Este conjunto de dados pode ser utilizado para qualquer finalidade, seja acadêmica ou comercial, nos termos da Licença Creative Commons Attribution-ShareAlike 3.0 Unported .
Página inicial : https://github.com/databrickslabs/dolly
Código fonte :
tfds.datasets.databricks_dolly.Builder
Versões :
-
1.0.0
(padrão): versão inicial.
-
Tamanho do download :
12.60 MiB
Tamanho do conjunto de dados :
12.69 MiB
Armazenado em cache automaticamente ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 15.014 |
- Estrutura de recursos :
FeaturesDict({
'category': Text(shape=(), dtype=string),
'context': Text(shape=(), dtype=string),
'instruction': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
})
- Documentação de recursos :
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
categoria | Texto | corda | ||
contexto | Texto | corda | ||
instrução | Texto | corda | ||
resposta | Texto | corda |
Chaves supervisionadas (consulte o documento
as_supervised
):None
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ):
- Citação :