- توضیحات :
مجموعه داده در مقیاس بزرگ برای شناسایی گوینده. این داده ها از بیش از 1251 سخنران با بیش از 150 هزار نمونه جمع آوری شده است. این نسخه شامل بخش صوتی مجموعه داده voxceleb1.1 است.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html
کد منبع :
tfds.audio.Voxceleb
نسخه ها :
-
1.2.1
(پیش فرض): فیلد youtube_id را اضافه کنید
-
حجم دانلود :
4.68 MiB
حجم مجموعه داده :
107.98 GiB
دستورالعملهای دانلود دستی : این مجموعه داده از شما میخواهد که دادههای منبع را به صورت دستی در
download_config.manual_dir
(پیشفرض~/tensorflow_datasets/downloads/manual/
):
manual_dir باید حاوی فایل vox_dev_wav.zip باشد. دستورالعمل دانلود این فایل در http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html این مجموعه داده نیاز به ثبت نام دارد.ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 7,972 |
'train' | 134000 |
'validation' | 6670 |
- ساختار ویژگی :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int64),
'label': ClassLabel(shape=(), dtype=int64, num_classes=1252),
'youtube_id': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
سمعی | سمعی | (هیچ یک،) | int64 | |
برچسب | ClassLabel | int64 | ||
youtube_id | متن | رشته |
کلیدهای نظارت شده (مشاهده
as_supervised
doc ):('audio', 'label')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@InProceedings{Nagrani17,
author = "Nagrani, A. and Chung, J.~S. and Zisserman, A.",
title = "VoxCeleb: a large-scale speaker identification dataset",
booktitle = "INTERSPEECH",
year = "2017",
}