- Descrição :
Um conjunto de dados de áudio de palavras faladas projetado para ajudar a treinar e avaliar os sistemas de detecção de palavras-chave. Seu objetivo principal é fornecer uma maneira de construir e testar pequenos modelos que detectam quando uma única palavra é falada, a partir de um conjunto de dez palavras-alvo, com o menor número possível de falsos positivos de ruído de fundo ou fala não relacionada. Observe que no conjunto de treinamento e validação, o rótulo "desconhecido" é muito mais prevalente do que os rótulos das palavras-alvo ou do ruído de fundo. Uma diferença da versão de lançamento é a manipulação de segmentos silenciosos. Enquanto no conjunto de teste os segmentos de silêncio são arquivos regulares de 1 segundo, no treinamento eles são fornecidos como segmentos longos na pasta "background_noise". Aqui, dividimos esses ruídos de fundo em clipes de 1 segundo e também mantemos um dos arquivos para o conjunto de validação.
Documentação Adicional : Explore em Papers With Code
Página inicial : https://arxiv.org/abs/1804.03209
Código -fonte:
tfds.datasets.speech_commands.Builder
Versões :
-
0.0.3
(padrão): Corrige o tipo de dados de áudio com dtype=tf.int16.
-
Tamanho do download :
2.37 GiB
Tamanho do conjunto de dados :
8.17 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'test' | 4.890 |
'train' | 85.511 |
'validation' | 10.102 |
- Estrutura de recursos :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
áudio | áudio | (Nenhum,) | int16 | |
rótulo | ClassLabel | int64 |
Chaves supervisionadas (consulte o documento
as_supervised
):('audio', 'label')
Figura ( tfds.show_examples ): Não compatível.
Exemplos ( tfds.as_dataframe ):
- Citação :
@article{speechcommandsv2,
author = { {Warden}, P.},
title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
journal = {ArXiv e-prints},
archivePrefix = "arXiv",
eprint = {1804.03209},
primaryClass = "cs.CL",
keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
year = 2018,
month = apr,
url = {https://arxiv.org/abs/1804.03209},
}