- תיאור :
מערך שמע של מילים מדוברות שנועד לעזור לאמן ולהעריך מערכות איתור מילות מפתח. המטרה העיקרית שלו היא לספק דרך לבנות ולבדוק מודלים קטנים שמזהים מתי מילה בודדת נאמרת, מתוך קבוצה של עשר מילות יעד, עם כמה שפחות תוצאות חיוביות שגויות מרעשי רקע או דיבור לא קשור. שימו לב שבערכת הרכבת והאימות, התווית "לא ידוע" נפוצה הרבה יותר מהתוויות של מילות המטרה או רעשי הרקע. הבדל אחד מגרסת השחרור הוא הטיפול בקטעים שקטים. בעוד במערך המבחן, מקטעי השתיקה הם קבצים רגילים של שנייה אחת, בהדרכה הם ניתנים כקטעים ארוכים תחת תיקיית "רעש_ברקע". כאן אנו מפצלים את רעשי הרקע הללו לקליפים של שנייה אחת, וגם שומרים על אחד מהקבצים עבור ערכת האימות.
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://arxiv.org/abs/1804.03209
קוד מקור :
tfds.datasets.speech_commands.Builder
גרסאות :
-
0.0.3
(ברירת מחדל): תקן את סוג נתוני השמע באמצעות dtype=tf.int16.
-
גודל הורדה :
2.37 GiB
גודל מערך נתונים :
8.17 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 4,890 |
'train' | 85,511 |
'validation' | 10,102 |
- מבנה תכונה :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
שֶׁמַע | שֶׁמַע | (אף אחד,) | int16 | |
תווית | ClassLabel | int64 |
מפתחות בפיקוח (ראה
as_supervised
doc ):('audio', 'label')
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@article{speechcommandsv2,
author = { {Warden}, P.},
title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
journal = {ArXiv e-prints},
archivePrefix = "arXiv",
eprint = {1804.03209},
primaryClass = "cs.CL",
keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
year = 2018,
month = apr,
url = {https://arxiv.org/abs/1804.03209},
}