- Mô tả :
UserLibri là một bộ dữ liệu chứa các bản ghi âm được ghép nối và dữ liệu bổ sung chỉ chứa văn bản cho mỗi người trong số 107 người dùng. Nó là sự định dạng lại bộ dữ liệu LibriSpeech có tại http://www.openslr.org/12, tổ chức lại dữ liệu thành người dùng với trung bình 52 cách phát biểu LibriSpeech và khoảng 6.700 câu ví dụ văn bản cho mỗi người dùng. Lớp UserLibriAudio cung cấp quyền truy cập vào các cặp bản ghi âm thanh. Xem UserLibriText để biết thêm dữ liệu văn bản.
Trang chủ : https://www.kaggle.com/datasets/google/userlibri
Mã nguồn :
tfds.text.userlibri_lm_data.UserLibriText
Phiên bản :
-
1.0.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
Unknown size
Kích thước tập dữ liệu :
86.86 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'10136' | 38,496 |
'1041' | 970 |
'10540' | 3,283 |
'108' | 5,864 |
'11' | 1.348 |
'11667' | 3.312 |
'1184' | 22.062 |
'12176' | 1,467 |
'12434' | 2,796 |
'12544' | 4.080 |
'13110' | 2.634 |
'13158' | 3.440 |
'13441' | 4.145 |
'135' | 37,263 |
'1353' | 4.889 |
'1399' | 18,914 |
'14420' | 6.950 |
'14566' | 3.810 |
'1477' | 2.526 |
'14958' | 1.495 |
'15263' | 21,085 |
'15265' | 7,647 |
'1549' | 5,439 |
'1572' | 2.882 |
'1597' | 3,586 |
'1608' | 3,605 |
'16127' | 3,588 |
'16653' | 7.600 |
'18096' | 2.384 |
'1827' | 4,806 |
'19019' | 3,248 |
'19215' | 13,542 |
'19717' | 3,762 |
'1989' | 1.105 |
'1998' | 8,923 |
'20019' | 966 |
'2002' | 239 |
'20212' | 3,363 |
'209' | 2.090 |
'21297' | 4.165 |
'22002' | 4,044 |
'2300' | 22,201 |
'24' | 3,537 |
'24585' | 1.789 |
'24811' | 2.399 |
'2488' | 8,239 |
'2529' | 3,934 |
'26177' | 3,598 |
'26379' | 379 |
'2681' | 8,872 |
'27067' | 3.149 |
'27090' | 3,217 |
'2770' | 3.750 |
'2787' | 4.603 |
'28700' | 5,547 |
'28725' | 3,899 |
'28952' | 2.909 |
'2981' | 54,305 |
'3076' | 7,124 |
'30905' | 2.140 |
'3178' | 8,454 |
'33' | 3,569 |
'33800' | 5,145 |
'3436' | 5,899 |
'3440' | 5,087 |
'3441' | 6,042 |
'36508' | 521 |
'3748' | 4,767 |
'38675' | 2.696 |
'38804' | 5,653 |
'39159' | 2.729 |
'4028' | 9,633 |
'40359' | 7,821 |
'41326' | 6,181 |
'4217' | 6.003 |
'4276' | 10,461 |
'434' | 4.319 |
'4602' | 4,421 |
'507' | 9,093 |
'540' | 5,452 |
'5516' | 4,963 |
'5630' | 1.130 |
'574' | 452 |
'5921' | 6.040 |
'6328' | 5,926 |
'6812' | 5,839 |
'732' | 22,971 |
'76' | 6,454 |
'7891' | 1,476 |
'8166' | 3.190 |
'820' | 11,054 |
'833' | 3.638 |
'9189' | 8,387 |
'94' | 1.722 |
'940' | 6,172 |
'9464' | 1.695 |
'955' | 3.051 |
'969' | 7,799 |
'9983' | 8,898 |
- Cấu trúc tính năng :
FeaturesDict({
'book_id': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
book_id | Chữ | sợi dây | Cuốn sách mà văn bản này được lấy từ | |
chữ | Chữ | sợi dây | Một câu văn bản trích từ một cuốn sách |
Các khóa được giám sát (Xem
as_supervised
doc ):('text', 'text')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{breiner2022userlibri,
title={UserLibri: A Dataset for ASR Personalization Using Only Text},
author={Breiner, Theresa and Ramaswamy, Swaroop and Variani, Ehsan and Garg, Shefali and Mathews, Rajiv and Sim, Khe Chai and Gupta, Kilol and Chen, Mingqing and McConnaughey, Lara},
booktitle={Proc. Interspeech 2022},
year={2022}
}