- Descrizione :
Un set di dati audio gratuito di cifre parlate. Pensa a MNIST per l'audio.
Un semplice dataset audio/vocale costituito da registrazioni di cifre parlate in file wav a 8kHz. Le registrazioni sono ritagliate in modo da avere un silenzio quasi minimo all'inizio e alla fine.
5 altoparlanti
2.500 registrazioni (50 di ogni cifra per oratore)
Pronunce inglesi
I file sono denominati nel seguente formato: {digitLabel} {speakerName} {index}.wav
Documentazione aggiuntiva : Esplora documenti con codice
Homepage : https://github.com/Jakobovski/free-spoken-digit-dataset
Codice sorgente :
tfds.datasets.spoken_digit.Builder
Versioni :
-
1.0.9
(impostazione predefinita): nessuna nota di rilascio.
-
Dimensione del download :
11.42 MiB
Dimensione del set di dati:
45.68 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'train' | 2.500 |
- Struttura delle caratteristiche :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int64),
'audio/filename': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
Audio | Audio | (Nessuno,) | int64 | |
audio/nome file | Testo | corda | ||
etichetta | ClassLabel | int64 |
Chiavi supervisionate (Vedi
as_supervised
doc ):('audio', 'label')
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):
- Citazione :
@ONLINE {Free Spoken Digit Dataset,
author = "Zohar Jackson",
title = "Spoken_Digit",
year = "2016",
url = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}