- وصف :
LibriSpeech عبارة عن مجموعة مكونة من 1000 ساعة تقريبًا من الكلام باللغة الإنجليزية المقروءة بمعدل أخذ عينات يبلغ 16 كيلو هرتز، أعدها فاسيل بانايوتوف بمساعدة دانييل بوفي. البيانات مستمدة من الكتب الصوتية المقروءة من مشروع LibriVox، وقد تم تقسيمها ومواءمتها بعناية.
يوصى باستخدام فك تشفير الصوت البطيء لقراءة أسرع وحجم مجموعة بيانات أصغر: - تثبيت مكتبة tensorflow_io
: pip install tensorflow-io
- تمكين فك التشفير البطيء: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
وثائق إضافية : استكشاف الأوراق باستخدام الكود
الصفحة الرئيسية : http://www.openslr.org/12
كود المصدر :
tfds.datasets.librispeech.Builder
حجم التحميل :
57.14 GiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'dev_clean' | 2,703 |
'dev_other' | 2,864 |
'test_clean' | 2,620 |
'test_other' | 2,939 |
'train_clean100' | 28,539 |
'train_clean360' | 104,014 |
'train_other500' | 148,688 |
- هيكل الميزة :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع D | وصف |
---|---|---|---|---|
المميزاتDict | ||||
Chapter_id | الموتر | كثافة العمليات64 | ||
بطاقة تعريف | الموتر | خيط | ||
معرف_المتكلم | الموتر | كثافة العمليات64 | ||
خطاب | صوتي | (لا أحد،) | كثافة العمليات16 | |
نص | نص | خيط |
المفاتيح الخاضعة للإشراف (انظر
as_supervised
doc ):('speech', 'text')
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech/افتراضي (التكوين الافتراضي)
وصف التكوين : مجموعة البيانات الافتراضية.
الإصدارات :
-
2.1.1
(افتراضي): إصلاح نوع بيانات الكلام باستخدام dtype=tf.int16. -
2.1.2
: أضف التكوين "lazy_decode".
-
حجم مجموعة البيانات :
304.47 GiB
أمثلة ( tfds.as_dataframe ):
librispeech/lazy_decode
وصف التكوين : مجموعة بيانات الصوت الخام.
الإصدارات :
-
2.1.1
: إصلاح نوع بيانات الكلام باستخدام dtype=tf.int16. -
2.1.2
(افتراضي): أضف التكوين "lazy_decode".
-
حجم مجموعة البيانات :
59.37 GiB
أمثلة ( tfds.as_dataframe ):