פקודות_דיבור

תיאור :

מערך שמע של מילים מדוברות שנועד לעזור לאמן ולהעריך מערכות איתור מילות מפתח. המטרה העיקרית שלו היא לספק דרך לבנות ולבדוק מודלים קטנים שמזהים מתי מילה בודדת נאמרת, מתוך קבוצה של עשר מילות יעד, עם כמה שפחות תוצאות חיוביות שגויות מרעשי רקע או דיבור לא קשור. שימו לב שבערכת הרכבת והאימות, התווית "לא ידוע" נפוצה הרבה יותר מהתוויות של מילות המטרה או רעשי הרקע. הבדל אחד מגרסת השחרור הוא הטיפול בקטעים שקטים. בעוד במערך המבחן, מקטעי השתיקה הם קבצים רגילים של שנייה אחת, בהדרכה הם ניתנים כקטעים ארוכים תחת תיקיית "רעש_ברקע". כאן אנו מפצלים את רעשי הרקע הללו לקליפים של שנייה אחת, וגם שומרים על אחד מהקבצים עבור ערכת האימות.

תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://arxiv.org/abs/1804.03209
קוד מקור : tfds.datasets.speech_commands.Builder
גרסאות :
- 0.0.3 (ברירת מחדל): תקן את סוג נתוני השמע באמצעות dtype=tf.int16.
גודל הורדה : 2.37 GiB
גודל מערך נתונים : 8.17 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :

לְפַצֵל	דוגמאות
`'test'`	4,890
`'train'`	85,511
`'validation'`	10,102

מבנה תכונה :

FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int16),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})

תיעוד תכונה :

תכונה	מעמד	צוּרָה	Dtype
	FeaturesDict
שֶׁמַע	שֶׁמַע	(אף אחד,)	int16
תווית	ClassLabel		int64

מפתחות בפיקוח (ראה as_supervised doc ): ('audio', 'label')
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):

ציטוט :

@article{speechcommandsv2,
   author = { {Warden}, P.},
    title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
  journal = {ArXiv e-prints},
  archivePrefix = "arXiv",
  eprint = {1804.03209},
  primaryClass = "cs.CL",
  keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
    year = 2018,
    month = apr,
    url = {https://arxiv.org/abs/1804.03209},
}

פקודות_דיבור קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

פקודות_דיבור