librispeech

  • وصف :

LibriSpeech عبارة عن مجموعة مكونة من 1000 ساعة تقريبًا من الكلام باللغة الإنجليزية المقروءة بمعدل أخذ عينات يبلغ 16 كيلو هرتز، أعدها فاسيل بانايوتوف بمساعدة دانييل بوفي. البيانات مستمدة من الكتب الصوتية المقروءة من مشروع LibriVox، وقد تم تقسيمها ومواءمتها بعناية.

يوصى باستخدام فك تشفير الصوت البطيء لقراءة أسرع وحجم مجموعة بيانات أصغر: - تثبيت مكتبة tensorflow_io : pip install tensorflow-io - تمكين فك التشفير البطيء: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

ينقسم أمثلة
'dev_clean' 2,703
'dev_other' 2,864
'test_clean' 2,620
'test_other' 2,939
'train_clean100' 28,539
'train_clean360' 104,014
'train_other500' 148,688
  • هيكل الميزة :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع D وصف
المميزاتDict
Chapter_id الموتر كثافة العمليات64
بطاقة تعريف الموتر خيط
معرف_المتكلم الموتر كثافة العمليات64
خطاب صوتي (لا أحد،) كثافة العمليات16
نص نص خيط
@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/افتراضي (التكوين الافتراضي)

  • وصف التكوين : مجموعة البيانات الافتراضية.

  • الإصدارات :

    • 2.1.1 (افتراضي): إصلاح نوع بيانات الكلام باستخدام dtype=tf.int16.
    • 2.1.2 : أضف التكوين "lazy_decode".
  • حجم مجموعة البيانات : 304.47 GiB

  • أمثلة ( tfds.as_dataframe ):

librispeech/lazy_decode

  • وصف التكوين : مجموعة بيانات الصوت الخام.

  • الإصدارات :

    • 2.1.1 : إصلاح نوع بيانات الكلام باستخدام dtype=tf.int16.
    • 2.1.2 (افتراضي): أضف التكوين "lazy_decode".
  • حجم مجموعة البيانات : 59.37 GiB

  • أمثلة ( tfds.as_dataframe ):