- Описание :
Бесплатный аудио набор голосовых данных. Подумайте о MNIST для аудио.
Простой набор аудио/речевых данных, состоящий из записей произнесенных цифр в wav-файлах с частотой 8 кГц. Записи обрезаны таким образом, чтобы в начале и в конце была почти минимальная тишина.
5 динамиков
2500 записей (по 50 каждой цифры на динамик)
Английское произношение
Файлы именуются в следующем формате: {digitLabel} {speakerName} {index}.wav
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://github.com/Jakobovski/free-spoken-digit-dataset
Исходный код :
tfds.datasets.spoken_digit.Builder
Версии :
-
1.0.9
(по умолчанию): нет примечаний к выпуску.
-
Размер загрузки :
11.42 MiB
Размер набора данных :
45.68 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 2500 |
- Структура функции :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int64),
'audio/filename': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})
- Документация по функциям :
Характерная черта | Класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
аудио | Аудио | (Никто,) | int64 | |
аудио/имя файла | Текст | нить | ||
этикетка | Метка класса | int64 |
Контролируемые ключи (см . документ
as_supervised
):('audio', 'label')
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@ONLINE {Free Spoken Digit Dataset,
author = "Zohar Jackson",
title = "Spoken_Digit",
year = "2016",
url = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}