- توضیحات :
مجموعه داده صوتی رایگان از ارقام گفتاری. به MNIST برای صدا فکر کنید.
یک مجموعه داده ساده صوتی/گفتاری شامل ضبط ارقام گفتاری در فایلهای wav با فرکانس 8 کیلوهرتز. ضبط ها به گونه ای بریده شده اند که در ابتدا و انتهای آن تقریباً حداقل سکوت را داشته باشند.
5 بلندگو
2500 ضبط (50 عدد از هر رقم در هر بلندگو)
تلفظ های انگلیسی
فایلها در قالب زیر نامگذاری میشوند: {digitLabel} {speakerName} {index}.wav
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/Jakobovski/free-spoken-digit-dataset
کد منبع :
tfds.datasets.spoken_digit.Builder
نسخه ها :
-
1.0.9
(پیشفرض): بدون یادداشت انتشار.
-
حجم دانلود :
11.42 MiB
حجم مجموعه داده :
45.68 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 2500 |
- ساختار ویژگی :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int64),
'audio/filename': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
سمعی | سمعی | (هیچ یک،) | int64 | |
صدا/نام فایل | متن | رشته | ||
برچسب | ClassLabel | int64 |
کلیدهای نظارت شده (مشاهده
as_supervised
doc ):('audio', 'label')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@ONLINE {Free Spoken Digit Dataset,
author = "Zohar Jackson",
title = "Spoken_Digit",
year = "2016",
url = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}