کتاب گفتار

  • توضیحات :

LibriSpeech مجموعه ای از تقریباً 1000 ساعت گفتار انگلیسی خوانده شده با نرخ نمونه برداری 16 کیلوهرتز است که توسط Vassil Panayotov با کمک دانیل پووی تهیه شده است. داده ها از کتاب های صوتی خوانده شده از پروژه LibriVox مشتق شده اند و به دقت بخش بندی و تراز شده اند.

توصیه می‌شود از رمزگشایی صدای تنبل برای خواندن سریع‌تر و اندازه مجموعه کوچک‌تر استفاده کنید: - نصب کتابخانه tensorflow_io : pip install tensorflow-io - فعال کردن رمزگشایی تنبل: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

شکاف مثال ها
'dev_clean' 2703
'dev_other' 2,864
'test_clean' 2620
'test_other' 2939
'train_clean100' 28539
'train_clean360' 104,014
'train_other500' 148688
  • ساختار ویژگی :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
فصل_id تانسور int64
شناسه تانسور رشته
speaker_id تانسور int64
سخن، گفتار سمعی (هیچ یک،) int16
متن متن رشته
  • کلیدهای نظارت شده (به as_supervised نظارت شده مراجعه کنید): ('speech', 'text')

  • شکل ( tfds.show_examples ): پشتیبانی نمی شود.

  • نقل قول :

@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/default (پیکربندی پیش فرض)

  • توضیحات پیکربندی : مجموعه داده پیش فرض.

  • نسخه ها :

    • 2.1.1 (پیش فرض): نوع داده گفتار را با dtype=tf.int16 اصلاح کنید.
    • 2.1.2 : پیکربندی "lazy_decode" را اضافه کنید.
  • حجم مجموعه داده : 304.47 GiB

  • مثال‌ها ( tfds.as_dataframe ):

librispeech/lazy_decode

  • توضیحات پیکربندی : مجموعه داده های صوتی خام.

  • نسخه ها :

    • 2.1.1 : نوع داده گفتار را با dtype=tf.int16 اصلاح کنید.
    • 2.1.2 (پیش‌فرض): پیکربندی «lazy_decode» را اضافه کنید.
  • حجم مجموعه داده : 59.37 GiB

  • مثال‌ها ( tfds.as_dataframe ): وجود ندارد.

،

  • توضیحات :

LibriSpeech مجموعه ای از تقریباً 1000 ساعت گفتار انگلیسی خوانده شده با نرخ نمونه برداری 16 کیلوهرتز است که توسط Vassil Panayotov با کمک دانیل پووی تهیه شده است. داده ها از کتاب های صوتی خوانده شده از پروژه LibriVox مشتق شده اند و به دقت بخش بندی و تراز شده اند.

توصیه می‌شود از رمزگشایی صدای تنبل برای خواندن سریع‌تر و اندازه مجموعه کوچک‌تر استفاده کنید: - نصب کتابخانه tensorflow_io : pip install tensorflow-io - فعال کردن رمزگشایی تنبل: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

شکاف مثال ها
'dev_clean' 2703
'dev_other' 2,864
'test_clean' 2620
'test_other' 2939
'train_clean100' 28539
'train_clean360' 104,014
'train_other500' 148688
  • ساختار ویژگی :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
فصل_id تانسور int64
شناسه تانسور رشته
speaker_id تانسور int64
سخن، گفتار سمعی (هیچ یک،) int16
متن متن رشته
  • کلیدهای نظارت شده (به as_supervised نظارت شده مراجعه کنید): ('speech', 'text')

  • شکل ( tfds.show_examples ): پشتیبانی نمی شود.

  • نقل قول :

@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/default (پیکربندی پیش فرض)

  • توضیحات پیکربندی : مجموعه داده پیش فرض.

  • نسخه ها :

    • 2.1.1 (پیش فرض): نوع داده گفتار را با dtype=tf.int16 اصلاح کنید.
    • 2.1.2 : پیکربندی "lazy_decode" را اضافه کنید.
  • حجم مجموعه داده : 304.47 GiB

  • مثال‌ها ( tfds.as_dataframe ):

librispeech/lazy_decode

  • توضیحات پیکربندی : مجموعه داده های صوتی خام.

  • نسخه ها :

    • 2.1.1 : نوع داده گفتار را با dtype=tf.int16 اصلاح کنید.
    • 2.1.2 (پیش‌فرض): پیکربندی «lazy_decode» را اضافه کنید.
  • حجم مجموعه داده : 59.37 GiB

  • مثال‌ها ( tfds.as_dataframe ): وجود ندارد.