- توضیحات :
مجموعه داده صوتی از کلمات گفتاری طراحی شده برای کمک به آموزش و ارزیابی سیستم های تشخیص کلمات کلیدی. هدف اصلی آن ارائه راهی برای ساخت و آزمایش مدلهای کوچکی است که تشخیص میدهند چه زمانی یک کلمه گفته میشود، از مجموعهای از ده کلمه هدف، با کمترین تعداد مثبت کاذب از نویز پسزمینه یا گفتار نامرتبط. توجه داشته باشید که در مجموعه قطار و اعتبار سنجی، برچسب "ناشناخته" بسیار رایج تر از برچسب های کلمات هدف یا نویز پس زمینه است. یک تفاوت با نسخه منتشر شده، مدیریت بخش های بی صدا است. در حالی که در مجموعه تست، بخش های سکوت فایل های معمولی 1 ثانیه ای هستند، در آموزش به صورت سگمنت های طولانی در زیر پوشه "background_noise" ارائه می شوند. در اینجا ما این نویز پسزمینه را به کلیپهای ۱ ثانیهای تقسیم میکنیم و همچنین یکی از فایلها را برای مجموعه اعتبارسنجی نگه میداریم.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://arxiv.org/abs/1804.03209
کد منبع :
tfds.datasets.speech_commands.Builder
نسخه ها :
-
0.0.3
(پیشفرض): نوع داده صوتی را با dtype=tf.int16 اصلاح کنید.
-
حجم دانلود :
2.37 GiB
حجم مجموعه داده :
8.17 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 4,890 |
'train' | 85511 |
'validation' | 10,102 |
- ساختار ویژگی :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
سمعی | سمعی | (هیچ یک،) | int16 | |
برچسب | ClassLabel | int64 |
کلیدهای نظارت شده (مشاهده
as_supervised
doc ):('audio', 'label')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@article{speechcommandsv2,
author = { {Warden}, P.},
title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
journal = {ArXiv e-prints},
archivePrefix = "arXiv",
eprint = {1804.03209},
primaryClass = "cs.CL",
keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
year = 2018,
month = apr,
url = {https://arxiv.org/abs/1804.03209},
}