Conozca lo último en aprendizaje automático, IA generativa y más en el Simposio WiML 2023.

Se usó la API de Cloud Translation para traducir esta página.

dígito_hablado

Descripción :

Un conjunto de datos de audio gratuito de dígitos hablados. Piense en MNIST para audio.

Un conjunto de datos de voz/audio simple que consta de grabaciones de dígitos hablados en archivos wav a 8 kHz. Las grabaciones se recortan para que tengan un silencio mínimo al principio y al final.

5 altavoces
2500 grabaciones (50 de cada dígito por locutor)
Pronunciaciones en inglés

Los archivos se nombran en el siguiente formato: {digitLabel} {speakerName} {index}.wav

Documentación adicional : Explore en Papers With Code
Página de inicio: https://github.com/Jakobovski/free-spoken-digit-dataset
Código fuente : tfds.datasets.spoken_digit.Builder
Versiones :
- 1.0.9 (predeterminado): Sin notas de la versión.
Tamaño de la descarga : 11.42 MiB
Tamaño del conjunto de datos : 45.68 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'train'`	2,500

Estructura de características :

FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'audio/filename': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
audio	Audio	(Ninguno,)	int64
audio/nombre de archivo	Texto		cuerda
etiqueta	Etiqueta de clase		int64

Teclas supervisadas (Ver as_supervised ): ('audio', 'label')
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):

Cita :

@ONLINE {Free Spoken Digit Dataset,
    author = "Zohar Jackson",
    title  = "Spoken_Digit",
    year   = "2016",
    url    = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}

dígito_hablado Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

dígito_hablado