librispeech

  • Deskripsi :

LibriSpeech adalah kumpulan sekitar 1000 jam pidato bahasa Inggris yang dibaca dengan laju pengambilan sampel 16 kHz, disiapkan oleh Vassil Panayotov dengan bantuan Daniel Povey. Data diperoleh dari buku audio yang telah dibaca dari proyek LibriVox, dan telah disegmentasikan dan disejajarkan dengan hati-hati.

Disarankan untuk menggunakan decoding audio lambat untuk membaca lebih cepat dan ukuran dataset lebih kecil: - instal perpustakaan tensorflow_io : pip install tensorflow-io - aktifkan decoding lambat: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

Membelah Contoh
'dev_clean' 2.703
'dev_other' 2.864
'test_clean' 2.620
'test_other' 2.939
'train_clean100' 28.539
'train_clean360' 104.014
'train_other500' 148.688
  • Struktur fitur :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
bab_id Tensor int64
Indo Tensor rangkaian
speaker_id Tensor int64
pidato Audio (Tidak ada,) int16
teks Teks rangkaian
@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/default (konfigurasi default)

  • Deskripsi konfigurasi : Dataset default.

  • Versi :

    • 2.1.1 (default): Perbaiki tipe data ucapan dengan dtype=tf.int16.
    • 2.1.2 : Tambahkan konfigurasi 'lazy_decode'.
  • Ukuran dataset : 304.47 GiB

  • Contoh ( tfds.as_dataframe ):

librispeech/lazy_decode

  • Deskripsi konfigurasi : Kumpulan data audio mentah.

  • Versi :

    • 2.1.1 : Perbaiki tipe data ucapan dengan dtype=tf.int16.
    • 2.1.2 (default): Tambahkan konfigurasi 'lazy_decode'.
  • Ukuran dataset : 59.37 GiB

  • Contoh ( tfds.as_dataframe ): Tidak ada.

,

  • Deskripsi :

LibriSpeech adalah kumpulan sekitar 1000 jam pidato bahasa Inggris yang dibaca dengan laju pengambilan sampel 16 kHz, disiapkan oleh Vassil Panayotov dengan bantuan Daniel Povey. Data diperoleh dari buku audio yang telah dibaca dari proyek LibriVox, dan telah disegmentasikan dan disejajarkan dengan hati-hati.

Disarankan untuk menggunakan decoding audio lambat untuk membaca lebih cepat dan ukuran dataset lebih kecil: - instal perpustakaan tensorflow_io : pip install tensorflow-io - aktifkan decoding lambat: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

Membelah Contoh
'dev_clean' 2.703
'dev_other' 2.864
'test_clean' 2.620
'test_other' 2.939
'train_clean100' 28.539
'train_clean360' 104.014
'train_other500' 148.688
  • Struktur fitur :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
bab_id Tensor int64
Indo Tensor rangkaian
speaker_id Tensor int64
pidato Audio (Tidak ada,) int16
teks Teks rangkaian
@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/default (konfigurasi default)

  • Deskripsi konfigurasi : Dataset default.

  • Versi :

    • 2.1.1 (default): Perbaiki tipe data ucapan dengan dtype=tf.int16.
    • 2.1.2 : Tambahkan konfigurasi 'lazy_decode'.
  • Ukuran dataset : 304.47 GiB

  • Contoh ( tfds.as_dataframe ):

librispeech/lazy_decode

  • Deskripsi konfigurasi : Kumpulan data audio mentah.

  • Versi :

    • 2.1.1 : Perbaiki tipe data ucapan dengan dtype=tf.int16.
    • 2.1.2 (default): Tambahkan konfigurasi 'lazy_decode'.
  • Ukuran dataset : 59.37 GiB

  • Contoh ( tfds.as_dataframe ): Tidak ada.