user_libri_text

  • Mô tả :

UserLibri là một bộ dữ liệu chứa các bản ghi âm được ghép nối và dữ liệu bổ sung chỉ chứa văn bản cho mỗi người trong số 107 người dùng. Nó là sự định dạng lại bộ dữ liệu LibriSpeech có tại http://www.openslr.org/12, tổ chức lại dữ liệu thành người dùng với trung bình 52 cách phát biểu LibriSpeech và khoảng 6.700 câu ví dụ văn bản cho mỗi người dùng. Lớp UserLibriAudio cung cấp quyền truy cập vào các cặp bản ghi âm thanh. Xem UserLibriText để biết thêm dữ liệu văn bản.

Tách ra ví dụ
'10136' 38,496
'1041' 970
'10540' 3,283
'108' 5,864
'11' 1.348
'11667' 3.312
'1184' 22.062
'12176' 1,467
'12434' 2,796
'12544' 4.080
'13110' 2.634
'13158' 3.440
'13441' 4.145
'135' 37,263
'1353' 4.889
'1399' 18,914
'14420' 6.950
'14566' 3.810
'1477' 2.526
'14958' 1.495
'15263' 21,085
'15265' 7,647
'1549' 5,439
'1572' 2.882
'1597' 3,586
'1608' 3,605
'16127' 3,588
'16653' 7.600
'18096' 2.384
'1827' 4,806
'19019' 3,248
'19215' 13,542
'19717' 3,762
'1989' 1.105
'1998' 8,923
'20019' 966
'2002' 239
'20212' 3,363
'209' 2.090
'21297' 4.165
'22002' 4,044
'2300' 22,201
'24' 3,537
'24585' 1.789
'24811' 2.399
'2488' 8,239
'2529' 3,934
'26177' 3,598
'26379' 379
'2681' 8,872
'27067' 3.149
'27090' 3,217
'2770' 3.750
'2787' 4.603
'28700' 5,547
'28725' 3,899
'28952' 2.909
'2981' 54,305
'3076' 7,124
'30905' 2.140
'3178' 8,454
'33' 3,569
'33800' 5,145
'3436' 5,899
'3440' 5,087
'3441' 6,042
'36508' 521
'3748' 4,767
'38675' 2.696
'38804' 5,653
'39159' 2.729
'4028' 9,633
'40359' 7,821
'41326' 6,181
'4217' 6.003
'4276' 10,461
'434' 4.319
'4602' 4,421
'507' 9,093
'540' 5,452
'5516' 4,963
'5630' 1.130
'574' 452
'5921' 6.040
'6328' 5,926
'6812' 5,839
'732' 22,971
'76' 6,454
'7891' 1,476
'8166' 3.190
'820' 11,054
'833' 3.638
'9189' 8,387
'94' 1.722
'940' 6,172
'9464' 1.695
'955' 3.051
'969' 7,799
'9983' 8,898
  • Cấu trúc tính năng :
FeaturesDict({
    'book_id': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
book_id Chữ sợi dây Cuốn sách mà văn bản này được lấy từ
chữ Chữ sợi dây Một câu văn bản trích từ một cuốn sách
  • trích dẫn :
@inproceedings{breiner2022userlibri,
  title={UserLibri: A Dataset for ASR Personalization Using Only Text},
  author={Breiner, Theresa and Ramaswamy, Swaroop and Variani, Ehsan and Garg, Shefali and Mathews, Rajiv and Sim, Khe Chai and Gupta, Kilol and Chen, Mingqing and McConnaughey, Lara},
  booktitle={Proc. Interspeech 2022},
  year={2022}
}