voice_commands

Описание :

Набор звуковых данных произносимых слов, предназначенный для обучения и оценки систем определения ключевых слов. Его основная цель — предоставить способ создания и тестирования небольших моделей, которые определяют, когда произносится одно слово из набора из десяти целевых слов, с минимальным количеством ложных срабатываний из-за фонового шума или несвязанной речи. Обратите внимание, что в наборе поезда и проверки метка «неизвестно» гораздо более распространена, чем метки целевых слов или фонового шума. Одним из отличий от версии выпуска является обработка сегментов молчания. В то время как в тестовом наборе сегменты тишины представляют собой обычные 1-секундные файлы, в обучении они представлены в виде длинных сегментов в папке «background_noise». Здесь мы разбиваем этот фоновый шум на 1-секундные клипы, а также сохраняем один из файлов для проверочного набора.

Дополнительная документация : изучить документы с кодом
Домашняя страница : https://arxiv.org/abs/1804.03209
Исходный код : tfds.datasets.speech_commands.Builder
Версии :
- 0.0.3 (по умолчанию): Исправлен тип аудиоданных с dtype=tf.int16.
Размер загрузки : 2.37 GiB
Размер набора данных : 8.17 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'test'`	4890
`'train'`	85 511
`'validation'`	10 102

Структура функции :

FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int16),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})

Документация по функциям :

Характерная черта	Класс	Форма	Dтип
	ОсобенностиDict
аудио	Аудио	(Никто,)	int16
этикетка	Метка класса		int64

Контролируемые ключи (см . документ as_supervised ): ('audio', 'label')
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):

Цитата :

@article{speechcommandsv2,
   author = { {Warden}, P.},
    title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
  journal = {ArXiv e-prints},
  archivePrefix = "arXiv",
  eprint = {1804.03209},
  primaryClass = "cs.CL",
  keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
    year = 2018,
    month = apr,
    url = {https://arxiv.org/abs/1804.03209},
}

voice_commands Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

voice_commands