user_libri_text

Deskripsi :

UserLibri adalah kumpulan data yang berisi transkrip audio berpasangan dan data teks tambahan saja untuk masing-masing 107 pengguna. Ini adalah pemformatan ulang dari kumpulan data LibriSpeech yang ditemukan di http://www.openslr.org/12, mengatur ulang data menjadi pengguna dengan rata-rata 52 ucapan LibriSpeech dan sekitar 6.700 contoh kalimat teks per pengguna. Kelas UserLibriAudio menyediakan akses ke pasangan audio-transkrip. Lihat UserLibriText untuk data teks tambahan.

Beranda : https://www.kaggle.com/datasets/google/userlibri
Kode sumber : tfds.text.userlibri_lm_data.UserLibriText
Versi :
- 1.0.0 (default): Tidak ada catatan rilis.
Ukuran unduhan : Unknown size
Ukuran dataset : 86.86 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'10136'`	38.496
`'1041'`	970
`'10540'`	3.283
`'108'`	5.864
`'11'`	1.348
`'11667'`	3.312
`'1184'`	22.062
`'12176'`	1.467
`'12434'`	2.796
`'12544'`	4.080
`'13110'`	2.634
`'13158'`	3.440
`'13441'`	4.145
`'135'`	37.263
`'1353'`	4.889
`'1399'`	18.914
`'14420'`	6.950
`'14566'`	3.810
`'1477'`	2.526
`'14958'`	1.495
`'15263'`	21.085
`'15265'`	7.647
`'1549'`	5.439
`'1572'`	2.882
`'1597'`	3.586
`'1608'`	3.605
`'16127'`	3.588
`'16653'`	7.600
`'18096'`	2.384
`'1827'`	4.806
`'19019'`	3.248
`'19215'`	13.542
`'19717'`	3.762
`'1989'`	1.105
`'1998'`	8.923
`'20019'`	966
`'2002'`	239
`'20212'`	3.363
`'209'`	2.090
`'21297'`	4.165
`'22002'`	4.044
`'2300'`	22.201
`'24'`	3.537
`'24585'`	1.789
`'24811'`	2.399
`'2488'`	8.239
`'2529'`	3.934
`'26177'`	3.598
`'26379'`	379
`'2681'`	8.872
`'27067'`	3.149
`'27090'`	3.217
`'2770'`	3.750
`'2787'`	4.603
`'28700'`	5.547
`'28725'`	3.899
`'28952'`	2.909
`'2981'`	54.305
`'3076'`	7.124
`'30905'`	2.140
`'3178'`	8.454
`'33'`	3.569
`'33800'`	5.145
`'3436'`	5.899
`'3440'`	5.087
`'3441'`	6.042
`'36508'`	521
`'3748'`	4.767
`'38675'`	2.696
`'38804'`	5.653
`'39159'`	2.729
`'4028'`	9.633
`'40359'`	7.821
`'41326'`	6.181
`'4217'`	6.003
`'4276'`	10.461
`'434'`	4.319
`'4602'`	4.421
`'507'`	9.093
`'540'`	5.452
`'5516'`	4.963
`'5630'`	1.130
`'574'`	452
`'5921'`	6.040
`'6328'`	5.926
`'6812'`	5.839
`'732'`	22.971
`'76'`	6.454
`'7891'`	1.476
`'8166'`	3.190
`'820'`	11.054
`'833'`	3.638
`'9189'`	8.387
`'94'`	1.722
`'940'`	6.172
`'9464'`	1.695
`'955'`	3.051
`'969'`	7.799
`'9983'`	8.898

Struktur fitur :

FeaturesDict({
    'book_id': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Dtype	Keterangan
	fiturDict
book_id	Teks	rangkaian	Buku tempat teks ini diambil
teks	Teks	rangkaian	Sebuah kalimat teks yang diambil dari sebuah buku

Kunci yang diawasi (Lihat as_supervised doc ): ('text', 'text')
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):

Kutipan :

@inproceedings{breiner2022userlibri,
  title={UserLibri: A Dataset for ASR Personalization Using Only Text},
  author={Breiner, Theresa and Ramaswamy, Swaroop and Variani, Ehsan and Garg, Shefali and Mathews, Rajiv and Sim, Khe Chai and Gupta, Kilol and Chen, Mingqing and McConnaughey, Lara},
  booktitle={Proc. Interspeech 2022},
  year={2022}
}

user_libri_text Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

user_libri_text