user_libri_text

توضیحات :

UserLibri مجموعه داده ای است که شامل رونوشت های صوتی جفت شده و داده های متنی اضافی برای هر یک از 107 کاربر است. این یک قالب بندی مجدد از مجموعه داده LibriSpeech است که در http://www.openslr.org/12 یافت می شود و داده ها را به کاربران با میانگین 52 گفته LibriSpeech و حدود 6700 جمله نمونه متنی برای هر کاربر سازماندهی مجدد می کند. کلاس UserLibriAudio دسترسی به جفت‌های رونوشت صوتی را فراهم می‌کند. برای اطلاعات متنی اضافی به UserLibriText مراجعه کنید.

صفحه اصلی : https://www.kaggle.com/datasets/google/userlibri
کد منبع : tfds.text.userlibri_lm_data.UserLibriText
نسخه ها :
- 1.0.0 (پیش فرض): بدون یادداشت انتشار.
اندازه دانلود : Unknown size
حجم مجموعه داده : 86.86 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :

شکاف	مثال ها
`'10136'`	38,496
`'1041'`	970
`'10540'`	3,283
`'108'`	5,864
`'11'`	1,348
`'11667'`	3,312
`'1184'`	22062
`'12176'`	1,467
`'12434'`	2796
`'12544'`	4080
`'13110'`	2634
`'13158'`	3,440
`'13441'`	4,145
`'135'`	37263
`'1353'`	4889
`'1399'`	18914
`'14420'`	6950
`'14566'`	3,810
`'1477'`	2,526
`'14958'`	1,495
`'15263'`	21,085
`'15265'`	7,647
`'1549'`	5,439
`'1572'`	2,882
`'1597'`	3,586
`'1608'`	3,605
`'16127'`	3,588
`'16653'`	7600
`'18096'`	2,384
`'1827'`	4806
`'19019'`	3,248
`'19215'`	13,542
`'19717'`	3762
`'1989'`	1,105
`'1998'`	8923
`'20019'`	966
`'2002'`	239
`'20212'`	3,363
`'209'`	2090
`'21297'`	4,165
`'22002'`	4,044
`'2300'`	22201
`'24'`	3,537
`'24585'`	1789
`'24811'`	2,399
`'2488'`	8239
`'2529'`	3,934
`'26177'`	3,598
`'26379'`	379
`'2681'`	8872
`'27067'`	3,149
`'27090'`	3,217
`'2770'`	3750
`'2787'`	4,603
`'28700'`	5,547
`'28725'`	3,899
`'28952'`	2909
`'2981'`	54,305
`'3076'`	7,124
`'30905'`	2,140
`'3178'`	8,454
`'33'`	3,569
`'33800'`	5,145
`'3436'`	5,899
`'3440'`	5,087
`'3441'`	6,042
`'36508'`	521
`'3748'`	4767
`'38675'`	2696
`'38804'`	5,653
`'39159'`	2729
`'4028'`	9,633
`'40359'`	7,821
`'41326'`	6,181
`'4217'`	6003
`'4276'`	10,461
`'434'`	4,319
`'4602'`	4,421
`'507'`	9,093
`'540'`	5,452
`'5516'`	4963
`'5630'`	1130
`'574'`	452
`'5921'`	6,040
`'6328'`	5,926
`'6812'`	5,839
`'732'`	22971
`'76'`	6,454
`'7891'`	1,476
`'8166'`	3,190
`'820'`	11,054
`'833'`	3,638
`'9189'`	8,387
`'94'`	1,722
`'940'`	6,172
`'9464'`	1695
`'955'`	3,051
`'969'`	7799
`'9983'`	8898

ساختار ویژگی :

FeaturesDict({
    'book_id': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})

مستندات ویژگی :

ویژگی	کلاس	نوع D	شرح
	FeaturesDict
book_id	متن	رشته	کتابی که این متن از آن بیرون کشیده شده است
متن	متن	رشته	جمله ای از متن استخراج شده از یک کتاب

کلیدهای نظارت شده (مشاهده as_supervised doc ): ('text', 'text')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{breiner2022userlibri,
  title={UserLibri: A Dataset for ASR Personalization Using Only Text},
  author={Breiner, Theresa and Ramaswamy, Swaroop and Variani, Ehsan and Garg, Shefali and Mathews, Rajiv and Sim, Khe Chai and Gupta, Kilol and Chen, Mingqing and McConnaughey, Lara},
  booktitle={Proc. Interspeech 2022},
  year={2022}
}

user_libri_text با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.

user_libri_text