AudioSpectrogram

طیف نهایی کلاس صوتی عمومی

تصویری از داده های صوتی را در طول زمان تولید می کند.

طیف‌نگارها روشی استاندارد برای نمایش اطلاعات صوتی به‌عنوان مجموعه‌ای از برش‌هایی از اطلاعات فرکانس هستند، یک برش برای هر پنجره زمانی. با پیوستن آنها به یکدیگر در یک دنباله، آنها اثر انگشت مشخصی از صدا را در طول زمان تشکیل می دهند.

این عملیات انتظار دارد که داده های صوتی را به عنوان ورودی دریافت کند که به صورت شناور در محدوده -1 تا 1 ذخیره می شود، همراه با عرض پنجره در نمونه ها، و یک قدم تعیین می کند که چقدر پنجره بین برش ها حرکت می کند. از این طریق یک خروجی سه بعدی تولید می کند. بعد اول مربوط به کانال های ورودی است، بنابراین یک ورودی صوتی استریو برای مثال در اینجا دو عدد دارد. بعد دوم زمان است، با برش های فرکانس متوالی. بعد سوم یک مقدار دامنه برای هر فرکانس در طول آن برش زمانی دارد.

این بدان معناست که چیدمان هنگام تبدیل و ذخیره به عنوان یک تصویر 90 درجه در جهت عقربه‌های ساعت از یک طیف‌نگار معمولی می‌چرخد. زمان در محور Y پایین می آید و فرکانس از چپ به راست کاهش می یابد.

هر مقدار در نتیجه نشان دهنده جذر مجموع قسمت های واقعی و خیالی یک FFT در پنجره فعلی نمونه ها است. به این ترتیب کمترین بعد نشان دهنده توان هر فرکانس در پنجره جاری است و پنجره های مجاور در بعد بعدی به هم متصل می شوند.

برای مشاهده بصری و شهودی تر به عملکرد این عملیات، می توانید tensorflow/examples/wav_to_spectrogram را برای خواندن در یک فایل صوتی اجرا کنید و طیف نگار حاصل را به عنوان یک تصویر PNG ذخیره کنید.

کلاس های تو در تو

کلاس AudioSpectrogram.Options ویژگی های اختیاری برای AudioSpectrogram

ثابت ها

رشته OP_NAME نام این عملیات، همانطور که توسط موتور هسته TensorFlow شناخته می شود

روش های عمومی

خروجی < TFloat32 >
asOutput ()
دسته نمادین تانسور را برمی گرداند.
طیف صوتی استاتیک
ایجاد (حوزه دامنه ، عملوند < TFloat32 > ورودی، اندازه پنجره طولانی، گام بلند، گزینه‌ها... گزینه‌ها)
روش کارخانه برای ایجاد کلاسی که یک عملیات AudioSpectrogram جدید را بسته بندی می کند.
استاتیک AudioSpectrogram.Options
magnitudeSquared (قدر بولی مربع)
خروجی < TFloat32 >
طیف نگار ()
نمایش سه بعدی فرکانس های صوتی به صورت تصویر.

روش های ارثی

ثابت ها

رشته نهایی ثابت عمومی OP_NAME

نام این عملیات، همانطور که توسط موتور هسته TensorFlow شناخته می شود

مقدار ثابت: "AudioSpectrogram"

روش های عمومی

خروجی عمومی < TFloat32 > asOutput ()

دسته نمادین تانسور را برمی گرداند.

ورودی های عملیات TensorFlow خروجی های عملیات تنسورفلو دیگر هستند. این روش برای به دست آوردن یک دسته نمادین که نشان دهنده محاسبه ورودی است استفاده می شود.

ایجاد طیف صوتی استاتیک عمومی (حوزه دامنه ، عملوند < TFloat32 > ورودی، اندازه پنجره طولانی، گام بلند، گزینه‌ها... گزینه‌ها)

روش کارخانه برای ایجاد کلاسی که یک عملیات AudioSpectrogram جدید را بسته بندی می کند.

مولفه های
محدوده محدوده فعلی
ورودی نمایش شناور داده های صوتی.
اندازه پنجره پهنای پنجره ورودی در نمونه ها چقدر است. برای بالاترین بازده، این باید توان دو باشد، اما مقادیر دیگر پذیرفته شده است.
گام های بلند برداشتن مرکز پنجره های نمونه مجاور چقدر باید از هم فاصله داشته باشد.
گزینه ها مقادیر ویژگی های اختیاری را حمل می کند
برمی گرداند
  • نمونه جدیدی از AudioSpectrogram

Public Static AudioSpectrogram.Options magnitudeSquared (بولی magnitudeSquared)

مولفه های
قدر مربع اعم از اینکه قدر مجذور را برگردانیم یا فقط قدر را. استفاده از قدر مربع می تواند از محاسبات اضافی جلوگیری کند.

خروجی عمومی < TFloat32 > طیف نگار ()

نمایش سه بعدی فرکانس های صوتی به صورت تصویر.