دستورات_گفتار

  • توضیحات :

مجموعه داده صوتی از کلمات گفتاری طراحی شده برای کمک به آموزش و ارزیابی سیستم های تشخیص کلمات کلیدی. هدف اصلی آن ارائه راهی برای ساخت و آزمایش مدل‌های کوچکی است که تشخیص می‌دهند چه زمانی یک کلمه گفته می‌شود، از مجموعه‌ای از ده کلمه هدف، با کمترین تعداد مثبت کاذب از نویز پس‌زمینه یا گفتار نامرتبط. توجه داشته باشید که در مجموعه قطار و اعتبار سنجی، برچسب "ناشناخته" بسیار رایج تر از برچسب های کلمات هدف یا نویز پس زمینه است. یک تفاوت با نسخه منتشر شده، مدیریت بخش های بی صدا است. در حالی که در مجموعه تست، بخش های سکوت فایل های معمولی 1 ثانیه ای هستند، در آموزش به صورت سگمنت های طولانی در زیر پوشه "background_noise" ارائه می شوند. در اینجا ما این نویز پس‌زمینه را به کلیپ‌های ۱ ثانیه‌ای تقسیم می‌کنیم و همچنین یکی از فایل‌ها را برای مجموعه اعتبارسنجی نگه می‌داریم.

شکاف مثال ها
'test' 4,890
'train' 85511
'validation' 10,102
  • ساختار ویژگی :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int16),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
سمعی سمعی (هیچ یک،) int16
برچسب ClassLabel int64
  • نقل قول :
@article{speechcommandsv2,
   author = { {Warden}, P.},
    title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
  journal = {ArXiv e-prints},
  archivePrefix = "arXiv",
  eprint = {1804.03209},
  primaryClass = "cs.CL",
  keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
    year = 2018,
    month = apr,
    url = {https://arxiv.org/abs/1804.03209},
}