- Deskripsi :
LibriSpeech adalah kumpulan sekitar 1000 jam pidato bahasa Inggris yang dibaca dengan laju pengambilan sampel 16 kHz, disiapkan oleh Vassil Panayotov dengan bantuan Daniel Povey. Data diperoleh dari buku audio yang telah dibaca dari proyek LibriVox, dan telah disegmentasikan dan disejajarkan dengan hati-hati.
Disarankan untuk menggunakan decoding audio lambat untuk membaca lebih cepat dan ukuran dataset lebih kecil: - instal perpustakaan tensorflow_io
: pip install tensorflow-io
- aktifkan decoding lambat: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : http://www.openslr.org/12
Kode sumber :
tfds.datasets.librispeech.Builder
Ukuran unduhan :
57.14 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'dev_clean' | 2.703 |
'dev_other' | 2.864 |
'test_clean' | 2.620 |
'test_other' | 2.939 |
'train_clean100' | 28.539 |
'train_clean360' | 104.014 |
'train_other500' | 148.688 |
- Struktur fitur :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
bab_id | Tensor | int64 | ||
Indo | Tensor | rangkaian | ||
speaker_id | Tensor | int64 | ||
pidato | Audio | (Tidak ada,) | int16 | |
teks | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):('speech', 'text')
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech/default (konfigurasi default)
Deskripsi konfigurasi : Dataset default.
Versi :
-
2.1.1
(default): Perbaiki tipe data ucapan dengan dtype=tf.int16. -
2.1.2
: Tambahkan konfigurasi 'lazy_decode'.
-
Ukuran dataset :
304.47 GiB
Contoh ( tfds.as_dataframe ):
librispeech/lazy_decode
Deskripsi konfigurasi : Kumpulan data audio mentah.
Versi :
-
2.1.1
: Perbaiki tipe data ucapan dengan dtype=tf.int16. -
2.1.2
(default): Tambahkan konfigurasi 'lazy_decode'.
-
Ukuran dataset :
59.37 GiB
Contoh ( tfds.as_dataframe ): Tidak ada.
- Deskripsi :
LibriSpeech adalah kumpulan sekitar 1000 jam pidato bahasa Inggris yang dibaca dengan laju pengambilan sampel 16 kHz, disiapkan oleh Vassil Panayotov dengan bantuan Daniel Povey. Data diperoleh dari buku audio yang telah dibaca dari proyek LibriVox, dan telah disegmentasikan dan disejajarkan dengan hati-hati.
Disarankan untuk menggunakan decoding audio lambat untuk membaca lebih cepat dan ukuran dataset lebih kecil: - instal perpustakaan tensorflow_io
: pip install tensorflow-io
- aktifkan decoding lambat: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : http://www.openslr.org/12
Kode sumber :
tfds.datasets.librispeech.Builder
Ukuran unduhan :
57.14 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'dev_clean' | 2.703 |
'dev_other' | 2.864 |
'test_clean' | 2.620 |
'test_other' | 2.939 |
'train_clean100' | 28.539 |
'train_clean360' | 104.014 |
'train_other500' | 148.688 |
- Struktur fitur :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
bab_id | Tensor | int64 | ||
Indo | Tensor | rangkaian | ||
speaker_id | Tensor | int64 | ||
pidato | Audio | (Tidak ada,) | int16 | |
teks | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):('speech', 'text')
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech/default (konfigurasi default)
Deskripsi konfigurasi : Dataset default.
Versi :
-
2.1.1
(default): Perbaiki tipe data ucapan dengan dtype=tf.int16. -
2.1.2
: Tambahkan konfigurasi 'lazy_decode'.
-
Ukuran dataset :
304.47 GiB
Contoh ( tfds.as_dataframe ):
librispeech/lazy_decode
Deskripsi konfigurasi : Kumpulan data audio mentah.
Versi :
-
2.1.1
: Perbaiki tipe data ucapan dengan dtype=tf.int16. -
2.1.2
(default): Tambahkan konfigurasi 'lazy_decode'.
-
Ukuran dataset :
59.37 GiB
Contoh ( tfds.as_dataframe ): Tidak ada.