- توضیحات :
این یک مجموعه داده گفتاری دامنه عمومی است که شامل 13100 کلیپ صوتی کوتاه از یک سخنران است که در حال خواندن قطعاتی از 7 کتاب غیرداستانی است. برای هر کلیپ رونویسی ارائه شده است. طول کلیپ ها از 1 تا 10 ثانیه متغیر است و طول کلی آنها تقریباً 24 ساعت است.
این متون بین سالهای 1884 تا 1964 منتشر شدهاند و در مالکیت عمومی قرار دارند. این صدا در سال 17-2016 توسط پروژه LibriVox ضبط شده است و همچنین در مالکیت عمومی است.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://keithito.com/LJ-Speech-Dataset/
کد منبع :
tfds.datasets.ljspeech.Builder
نسخه ها :
-
1.1.1
(پیش فرض): نوع داده گفتار را با dtype=tf.int16 اصلاح کنید.
-
حجم دانلود :
2.56 GiB
حجم مجموعه داده :
10.73 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 13100 |
- ساختار ویژگی :
FeaturesDict({
'id': string,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
'text_normalized': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
شناسه | تانسور | رشته | ||
سخن، گفتار | سمعی | (هیچ یک،) | int16 | |
متن | متن | رشته | ||
text_normalized | متن | رشته |
کلیدهای نظارت شده ( به عنوان_سند
as_supervised
مراجعه کنید):('text_normalized', 'speech')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@misc{ljspeech17,
author = {Keith Ito},
title = {The LJ Speech Dataset},
howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
year = 2017
}