librispeech

  • Descrição :

LibriSpeech é um corpus de aproximadamente 1000 horas de leitura de fala em inglês com taxa de amostragem de 16 kHz, preparado por Vassil Panayotov com a ajuda de Daniel Povey. Os dados são derivados de audiolivros lidos do projeto LibriVox e foram cuidadosamente segmentados e alinhados.

Recomenda-se usar a decodificação de áudio lenta para leitura mais rápida e menor tamanho do conjunto de dados: - instale a biblioteca tensorflow_io : pip install tensorflow-io - habilite a decodificação lenta: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

Dividir Exemplos
'dev_clean' 2.703
'dev_other' 2.864
'test_clean' 2.620
'test_other' 2.939
'train_clean100' 28.539
'train_clean360' 104.014
'train_other500' 148.688
  • Estrutura de recursos :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Funcionalidade Aula Forma Tipo D Descrição
RecursosDict
capítulo_id tensor int64
Eu iria tensor fragmento
speaker_id tensor int64
discurso áudio (Nenhum,) int16
texto Texto fragmento
@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/default (configuração padrão)

  • Descrição da configuração : conjunto de dados padrão.

  • Versões :

    • 2.1.1 (padrão): Corrige o tipo de dados de fala com dtype=tf.int16.
    • 2.1.2 : Adicionar configuração 'lazy_decode'.
  • Tamanho do conjunto de dados : 304.47 GiB

  • Exemplos ( tfds.as_dataframe ):

librispeech/lazy_decode

  • Descrição da configuração : conjunto de dados de áudio bruto.

  • Versões :

    • 2.1.1 : Corrige o tipo de dados de fala com dtype=tf.int16.
    • 2.1.2 (padrão): Adicionar configuração 'lazy_decode'.
  • Tamanho do conjunto de dados : 59.37 GiB

  • Exemplos ( tfds.as_dataframe ): Ausente.

,

  • Descrição :

LibriSpeech é um corpus de aproximadamente 1000 horas de leitura de fala em inglês com taxa de amostragem de 16 kHz, preparado por Vassil Panayotov com a ajuda de Daniel Povey. Os dados são derivados de audiolivros lidos do projeto LibriVox e foram cuidadosamente segmentados e alinhados.

Recomenda-se usar a decodificação de áudio lenta para leitura mais rápida e menor tamanho do conjunto de dados: - instale a biblioteca tensorflow_io : pip install tensorflow-io - habilite a decodificação lenta: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

Dividir Exemplos
'dev_clean' 2.703
'dev_other' 2.864
'test_clean' 2.620
'test_other' 2.939
'train_clean100' 28.539
'train_clean360' 104.014
'train_other500' 148.688
  • Estrutura de recursos :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Funcionalidade Aula Forma Tipo D Descrição
RecursosDict
capítulo_id tensor int64
Eu iria tensor fragmento
speaker_id tensor int64
discurso áudio (Nenhum,) int16
texto Texto fragmento
@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/default (configuração padrão)

  • Descrição da configuração : conjunto de dados padrão.

  • Versões :

    • 2.1.1 (padrão): Corrige o tipo de dados de fala com dtype=tf.int16.
    • 2.1.2 : Adicionar configuração 'lazy_decode'.
  • Tamanho do conjunto de dados : 304.47 GiB

  • Exemplos ( tfds.as_dataframe ):

librispeech/lazy_decode

  • Descrição da configuração : conjunto de dados de áudio bruto.

  • Versões :

    • 2.1.1 : Corrige o tipo de dados de fala com dtype=tf.int16.
    • 2.1.2 (padrão): Adicionar configuração 'lazy_decode'.
  • Tamanho do conjunto de dados : 59.37 GiB

  • Exemplos ( tfds.as_dataframe ): Ausente.