speakn_digit

توضیحات :

مجموعه داده صوتی رایگان از ارقام گفتاری. به MNIST برای صدا فکر کنید.

یک مجموعه داده ساده صوتی/گفتاری شامل ضبط ارقام گفتاری در فایل‌های wav با فرکانس 8 کیلوهرتز. ضبط ها به گونه ای بریده شده اند که در ابتدا و انتهای آن تقریباً حداقل سکوت را داشته باشند.

5 بلندگو
2500 ضبط (50 عدد از هر رقم در هر بلندگو)
تلفظ های انگلیسی

فایل‌ها در قالب زیر نام‌گذاری می‌شوند: {digitLabel} {speakerName} {index}.wav

اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/Jakobovski/free-spoken-digit-dataset
کد منبع : tfds.datasets.spoken_digit.Builder
نسخه ها :
- 1.0.9 (پیش‌فرض): بدون یادداشت انتشار.
حجم دانلود : 11.42 MiB
حجم مجموعه داده : 45.68 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :

شکاف	مثال ها
`'train'`	2500

ساختار ویژگی :

FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'audio/filename': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})

مستندات ویژگی :

ویژگی	کلاس	شکل	نوع D
	FeaturesDict
سمعی	سمعی	(هیچ یک،)	int64
صدا/نام فایل	متن		رشته
برچسب	ClassLabel		int64

کلیدهای نظارت شده (مشاهده as_supervised doc ): ('audio', 'label')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@ONLINE {Free Spoken Digit Dataset,
    author = "Zohar Jackson",
    title  = "Spoken_Digit",
    year   = "2016",
    url    = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}

speakn_digit با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.

speakn_digit