user_libri_text

Mô tả :

UserLibri là một bộ dữ liệu chứa các bản ghi âm được ghép nối và dữ liệu bổ sung chỉ chứa văn bản cho mỗi người trong số 107 người dùng. Nó là sự định dạng lại bộ dữ liệu LibriSpeech có tại http://www.openslr.org/12, tổ chức lại dữ liệu thành người dùng với trung bình 52 cách phát biểu LibriSpeech và khoảng 6.700 câu ví dụ văn bản cho mỗi người dùng. Lớp UserLibriAudio cung cấp quyền truy cập vào các cặp bản ghi âm thanh. Xem UserLibriText để biết thêm dữ liệu văn bản.

Trang chủ : https://www.kaggle.com/datasets/google/userlibri
Mã nguồn : tfds.text.userlibri_lm_data.UserLibriText
Phiên bản :
- 1.0.0 (mặc định): Không có ghi chú phát hành.
Kích thước tải xuống : Unknown size
Kích thước tập dữ liệu : 86.86 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :

Tách ra	ví dụ
`'10136'`	38,496
`'1041'`	970
`'10540'`	3,283
`'108'`	5,864
`'11'`	1.348
`'11667'`	3.312
`'1184'`	22.062
`'12176'`	1,467
`'12434'`	2,796
`'12544'`	4.080
`'13110'`	2.634
`'13158'`	3.440
`'13441'`	4.145
`'135'`	37,263
`'1353'`	4.889
`'1399'`	18,914
`'14420'`	6.950
`'14566'`	3.810
`'1477'`	2.526
`'14958'`	1.495
`'15263'`	21,085
`'15265'`	7,647
`'1549'`	5,439
`'1572'`	2.882
`'1597'`	3,586
`'1608'`	3,605
`'16127'`	3,588
`'16653'`	7.600
`'18096'`	2.384
`'1827'`	4,806
`'19019'`	3,248
`'19215'`	13,542
`'19717'`	3,762
`'1989'`	1.105
`'1998'`	8,923
`'20019'`	966
`'2002'`	239
`'20212'`	3,363
`'209'`	2.090
`'21297'`	4.165
`'22002'`	4,044
`'2300'`	22,201
`'24'`	3,537
`'24585'`	1.789
`'24811'`	2.399
`'2488'`	8,239
`'2529'`	3,934
`'26177'`	3,598
`'26379'`	379
`'2681'`	8,872
`'27067'`	3.149
`'27090'`	3,217
`'2770'`	3.750
`'2787'`	4.603
`'28700'`	5,547
`'28725'`	3,899
`'28952'`	2.909
`'2981'`	54,305
`'3076'`	7,124
`'30905'`	2.140
`'3178'`	8,454
`'33'`	3,569
`'33800'`	5,145
`'3436'`	5,899
`'3440'`	5,087
`'3441'`	6,042
`'36508'`	521
`'3748'`	4,767
`'38675'`	2.696
`'38804'`	5,653
`'39159'`	2.729
`'4028'`	9,633
`'40359'`	7,821
`'41326'`	6,181
`'4217'`	6.003
`'4276'`	10,461
`'434'`	4.319
`'4602'`	4,421
`'507'`	9,093
`'540'`	5,452
`'5516'`	4,963
`'5630'`	1.130
`'574'`	452
`'5921'`	6.040
`'6328'`	5,926
`'6812'`	5,839
`'732'`	22,971
`'76'`	6,454
`'7891'`	1,476
`'8166'`	3.190
`'820'`	11,054
`'833'`	3.638
`'9189'`	8,387
`'94'`	1.722
`'940'`	6,172
`'9464'`	1.695
`'955'`	3.051
`'969'`	7,799
`'9983'`	8,898

Cấu trúc tính năng :

FeaturesDict({
    'book_id': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})

Tài liệu tính năng :

Tính năng	Lớp	Dtype	Sự mô tả
	Tính năngDict
book_id	Chữ	sợi dây	Cuốn sách mà văn bản này được lấy từ
chữ	Chữ	sợi dây	Một câu văn bản trích từ một cuốn sách

Các khóa được giám sát (Xem as_supervised doc ): ('text', 'text')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):

trích dẫn :

@inproceedings{breiner2022userlibri,
  title={UserLibri: A Dataset for ASR Personalization Using Only Text},
  author={Breiner, Theresa and Ramaswamy, Swaroop and Variani, Ehsan and Garg, Shefali and Mathews, Rajiv and Sim, Khe Chai and Gupta, Kilol and Chen, Mingqing and McConnaughey, Lara},
  booktitle={Proc. Interspeech 2022},
  year={2022}
}

user_libri_text Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

user_libri_text