- توضیحات :
UserLibri مجموعه داده ای است که شامل رونوشت های صوتی جفت شده و داده های متنی اضافی برای هر یک از 107 کاربر است. این یک قالب بندی مجدد از مجموعه داده LibriSpeech است که در http://www.openslr.org/12 یافت می شود و داده ها را به کاربران با میانگین 52 گفته LibriSpeech و حدود 6700 جمله نمونه متنی برای هر کاربر سازماندهی مجدد می کند. کلاس UserLibriAudio دسترسی به جفتهای رونوشت صوتی را فراهم میکند. برای اطلاعات متنی اضافی به UserLibriText مراجعه کنید.
صفحه اصلی : https://www.kaggle.com/datasets/google/userlibri
نسخه ها :
-
1.0.0
(پیش فرض): بدون یادداشت انتشار.
-
اندازه دانلود :
Unknown size
حجم مجموعه داده :
86.86 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'10136' | 38,496 |
'1041' | 970 |
'10540' | 3,283 |
'108' | 5,864 |
'11' | 1,348 |
'11667' | 3,312 |
'1184' | 22062 |
'12176' | 1,467 |
'12434' | 2796 |
'12544' | 4080 |
'13110' | 2634 |
'13158' | 3,440 |
'13441' | 4,145 |
'135' | 37263 |
'1353' | 4889 |
'1399' | 18914 |
'14420' | 6950 |
'14566' | 3,810 |
'1477' | 2,526 |
'14958' | 1,495 |
'15263' | 21,085 |
'15265' | 7,647 |
'1549' | 5,439 |
'1572' | 2,882 |
'1597' | 3,586 |
'1608' | 3,605 |
'16127' | 3,588 |
'16653' | 7600 |
'18096' | 2,384 |
'1827' | 4806 |
'19019' | 3,248 |
'19215' | 13,542 |
'19717' | 3762 |
'1989' | 1,105 |
'1998' | 8923 |
'20019' | 966 |
'2002' | 239 |
'20212' | 3,363 |
'209' | 2090 |
'21297' | 4,165 |
'22002' | 4,044 |
'2300' | 22201 |
'24' | 3,537 |
'24585' | 1789 |
'24811' | 2,399 |
'2488' | 8239 |
'2529' | 3,934 |
'26177' | 3,598 |
'26379' | 379 |
'2681' | 8872 |
'27067' | 3,149 |
'27090' | 3,217 |
'2770' | 3750 |
'2787' | 4,603 |
'28700' | 5,547 |
'28725' | 3,899 |
'28952' | 2909 |
'2981' | 54,305 |
'3076' | 7,124 |
'30905' | 2,140 |
'3178' | 8,454 |
'33' | 3,569 |
'33800' | 5,145 |
'3436' | 5,899 |
'3440' | 5,087 |
'3441' | 6,042 |
'36508' | 521 |
'3748' | 4767 |
'38675' | 2696 |
'38804' | 5,653 |
'39159' | 2729 |
'4028' | 9,633 |
'40359' | 7,821 |
'41326' | 6,181 |
'4217' | 6003 |
'4276' | 10,461 |
'434' | 4,319 |
'4602' | 4,421 |
'507' | 9,093 |
'540' | 5,452 |
'5516' | 4963 |
'5630' | 1130 |
'574' | 452 |
'5921' | 6,040 |
'6328' | 5,926 |
'6812' | 5,839 |
'732' | 22971 |
'76' | 6,454 |
'7891' | 1,476 |
'8166' | 3,190 |
'820' | 11,054 |
'833' | 3,638 |
'9189' | 8,387 |
'94' | 1,722 |
'940' | 6,172 |
'9464' | 1695 |
'955' | 3,051 |
'969' | 7799 |
'9983' | 8898 |
- ساختار ویژگی :
FeaturesDict({
'book_id': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
book_id | متن | رشته | کتابی که این متن از آن بیرون کشیده شده است | |
متن | متن | رشته | جمله ای از متن استخراج شده از یک کتاب |
کلیدهای نظارت شده (مشاهده
as_supervised
doc ):('text', 'text')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@inproceedings{breiner2022userlibri,
title={UserLibri: A Dataset for ASR Personalization Using Only Text},
author={Breiner, Theresa and Ramaswamy, Swaroop and Variani, Ehsan and Garg, Shefali and Mathews, Rajiv and Sim, Khe Chai and Gupta, Kilol and Chen, Mingqing and McConnaughey, Lara},
booktitle={Proc. Interspeech 2022},
year={2022}
}