voxceleb

توضیحات :

مجموعه داده در مقیاس بزرگ برای شناسایی گوینده. این داده ها از بیش از 1251 سخنران با بیش از 150 هزار نمونه جمع آوری شده است. این نسخه شامل بخش صوتی مجموعه داده voxceleb1.1 است.

اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html
کد منبع : tfds.audio.Voxceleb
نسخه ها :
- 1.2.1 (پیش فرض): فیلد youtube_id را اضافه کنید
حجم دانلود : 4.68 MiB
حجم مجموعه داده : 107.98 GiB
دستورالعمل‌های دانلود دستی : این مجموعه داده از شما می‌خواهد که داده‌های منبع را به صورت دستی در download_config.manual_dir (پیش‌فرض ~/tensorflow_datasets/downloads/manual/ ):
manual_dir باید حاوی فایل vox_dev_wav.zip باشد. دستورالعمل دانلود این فایل در http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html این مجموعه داده نیاز به ثبت نام دارد.
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :

شکاف	مثال ها
`'test'`	7,972
`'train'`	134000
`'validation'`	6670

ساختار ویژگی :

FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1252),
    'youtube_id': Text(shape=(), dtype=string),
})

مستندات ویژگی :

ویژگی	کلاس	شکل	نوع D
	FeaturesDict
سمعی	سمعی	(هیچ یک،)	int64
برچسب	ClassLabel		int64
youtube_id	متن		رشته

کلیدهای نظارت شده (مشاهده as_supervised doc ): ('audio', 'label')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@InProceedings{Nagrani17,
    author       = "Nagrani, A. and Chung, J.~S. and Zisserman, A.",
    title        = "VoxCeleb: a large-scale speaker identification dataset",
    booktitle    = "INTERSPEECH",
    year         = "2017",
}

voxceleb با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.

voxceleb