AudioSpectrogram

כיתת גמר ציבורית AudioSpectrogram

מייצר הדמיה של נתוני אודיו לאורך זמן.

ספקטרוגרמות הן דרך סטנדרטית לייצוג מידע שמע כסדרה של פרוסות של מידע תדר, פרוסה אחת לכל חלון זמן. על ידי צירוף אלה יחד לרצף, הם יוצרים טביעת אצבע ייחודית של הצליל לאורך זמן.

אופציה זו מצפה לקבל נתוני אודיו כקלט, המאוחסנים כצפים בטווח -1 עד 1, יחד עם רוחב חלון בדגימות, וצעד המציין כמה רחוק להעביר את החלון בין פרוסות. מתוך כך הוא מייצר פלט תלת מימדי. המימד הראשון הוא עבור הערוצים בכניסה, כך שלכניסת אודיו סטריאו יהיו שניים כאן למשל. הממד השני הוא זמן, עם פרוסות תדר עוקבות. למימד השלישי יש ערך משרעת עבור כל תדר במהלך פרוסת זמן זו.

המשמעות היא שהפריסה כשהיא מומרת ונשמרת כתמונה מסובבת 90 מעלות בכיוון השעון מספקטרוגרמה טיפוסית. הזמן יורד במורד ציר ה-Y, והתדירות יורדת משמאל לימין.

כל ערך בתוצאה מייצג את השורש הריבועי של סכום החלקים האמיתיים והדמיוניים של FFT בחלון הדגימות הנוכחי. באופן זה, הממד הנמוך ביותר מייצג את ההספק של כל תדר בחלון הנוכחי, וחלונות סמוכים משורשרים בממד הבא.

כדי לקבל מבט אינטואיטיבי וויזואלי יותר על מה שהפעולה הזו עושה, אתה יכול להפעיל את tensorflow/examples/wav_to_spectrogram כדי לקרוא קובץ שמע ולשמור את הספקטרוגרם שנוצר כתמונת PNG.

כיתות מקוננות

מעמד אודיוספקטרוגרם.אפשרויות תכונות אופציונליות עבור AudioSpectrogram

קבועים

חוּט OP_NAME השם של המבצע הזה, כפי שידוע על ידי מנוע הליבה של TensorFlow

שיטות ציבוריות

פלט < TFloat32 >
asOutput ()
מחזירה את הידית הסמלית של הטנזור.
אודיוספקטרוגרם סטטי
ליצור ( היקף היקף, Operand < TFloat32 > קלט, גודל חלון ארוך, צעד ארוך, אפשרויות... אפשרויות)
שיטת מפעל ליצירת מחלקה העוטפת פעולת AudioSpectrogram חדשה.
סטטי AudioSpectrogram.Options
magnitudeSquared (גודל בוליאני)
פלט < TFloat32 >
ספקטרוגרם ()
ייצוג תלת מימדי של תדרי השמע כתמונה.

שיטות בירושה

org.tensorflow.op.RawOp
בוליאנית סופית
שווה (Object obj)
int סופי
מבצע
אופ ()
החזר יחידת חישוב זו Operation אחת.
מחרוזת סופית
בוליאני
שווה (Object arg0)
שיעור אחרון<?>
getClass ()
int
hashcode ()
ריק סופי
להודיע ​​()
ריק סופי
הודע הכל ()
חוּט
toString ()
ריק סופי
המתן (ארג0 ארוך, int arg1)
ריק סופי
המתן (ארג0 ארוך)
ריק סופי
חכה ()
org.tensorflow.op.Op
אבסטרקט ExecutionEnvironment
env ()
החזר את סביבת הביצוע שבה נוצר האופציה הזו.
מבצע מופשט
אופ ()
החזר יחידת חישוב זו Operation אחת.
org.tensorflow.Operand
פלט מופשט < TFloat32 >
asOutput ()
מחזירה את הידית הסמלית של הטנזור.
תקציר TFloat32
asTensor ()
מחזיר את הטנזור באופרנד זה.
צורה מופשטת
צורה ()
מחזירה את הצורה (הידועה אולי בחלקה) של הטנזור שאליו מתייחס Output של אופרנד זה.
תקציר Class< TFloat32 >
סוג ()
מחזירה את סוג הטנזור של אופרנד זה
org.tensorflow.ndarray.Shaped
מופשט int
צורה מופשטת
מופשט ארוך
גודל ()
מחשב ומחזיר את הגודל הכולל של מיכל זה, במספר ערכים.

קבועים

מחרוזת סופית סטטית ציבורית OP_NAME

השם של המבצע הזה, כפי שידוע על ידי מנוע הליבה של TensorFlow

ערך קבוע: "אודיוספקטרוגרם"

שיטות ציבוריות

פלט ציבורי < TFloat32 > asOutput ()

מחזירה את הידית הסמלית של הטנזור.

כניסות לפעולות TensorFlow הן יציאות של פעולת TensorFlow אחרת. שיטה זו משמשת להשגת ידית סמלית המייצגת את חישוב הקלט.

יצירת AudioSpectrogram סטטית ציבורית ( היקף היקף, Operand < TFloat32 > קלט, גודל חלון ארוך, צעד ארוך, אפשרויות... אפשרויות)

שיטת מפעל ליצירת מחלקה העוטפת פעולת AudioSpectrogram חדשה.

פרמטרים
תְחוּם ההיקף הנוכחי
קֶלֶט ייצוג צף של נתוני אודיו.
גודל חלון כמה רחב חלון הקלט בדוגמאות. עבור היעילות הגבוהה ביותר זה צריך להיות חזק של שתיים, אבל ערכים אחרים מתקבלים.
לִצְעוֹד באיזו מרחק צריך להיות מרכז החלונות לדוגמה הסמוכים.
אפשרויות נושא ערכי תכונות אופציונליות
החזרות
  • מופע חדש של AudioSpectrogram

אודיוספקטרוגרם סטטי ציבורי. אפשרויות magnitudeSquared (גודל בוליאני בריבוע)

פרמטרים
magnitudeSquared האם להחזיר את הגודל בריבוע או רק את הגודל. שימוש בגודל בריבוע יכול למנוע חישובים נוספים.

פלט ציבורי < TFloat32 > ספקטרוגרם ()

ייצוג תלת מימדי של תדרי השמע כתמונה.