AudioSpectrogram

genel final sınıfı AudioSpectrogram

Zaman içinde ses verilerinin görselleştirilmesini sağlar.

Spektrogramlar, ses bilgisini, her zaman penceresi için bir dilim olmak üzere, bir dizi frekans bilgisi dilimleri olarak temsil etmenin standart bir yoludur. Bunları bir dizi halinde birleştirerek zaman içinde sesin ayırt edici bir parmak izini oluştururlar.

Bu operasyon, -1 ila 1 aralığında kayan nokta olarak saklanan ses verilerini, örneklerdeki pencere genişliği ve pencerenin dilimler arasında ne kadar uzağa taşınacağını belirten bir adımla birlikte bir giriş olarak almayı bekler. Bundan üç boyutlu bir çıktı üretir. İlk boyut girişteki kanallar içindir, dolayısıyla stereo ses girişinde örneğin burada iki tane bulunur. İkinci boyut, birbirini takip eden frekans dilimleriyle zamandır. Üçüncü boyut, o zaman dilimindeki her frekans için bir genlik değerine sahiptir.

Bu, görüntü olarak dönüştürülüp kaydedildiğinde düzenin tipik bir spektrogramdan saat yönünde 90 derece döndürüldüğü anlamına gelir. Zaman Y ekseninde aşağı doğru iniyor ve frekans soldan sağa doğru azalıyor.

Sonuçtaki her değer, örneklerin geçerli penceresindeki bir FFT'nin gerçek ve sanal kısımlarının toplamının karekökünü temsil eder. Bu şekilde en düşük boyut, geçerli penceredeki her frekansın gücünü temsil eder ve bitişik pencereler bir sonraki boyutta birleştirilir.

Bu işlemin ne yaptığına daha sezgisel ve görsel bir bakış sağlamak için tensorflow/examples/wav_to_spectrogram komutunu çalıştırarak bir ses dosyasını okuyabilir ve elde edilen spektrogramı PNG görüntüsü olarak kaydedebilirsiniz.

İç İçe Sınıflar

sınıf AudioSpectrogram.Seçenekler AudioSpectrogram için isteğe bağlı özellikler

Sabitler

Sicim OP_NAME Bu operasyonun TensorFlow çekirdek motoru tarafından bilinen adı

Genel Yöntemler

Çıkış < TFloat32 >
Çıkış olarak ()
Tensörün sembolik tutamacını döndürür.
statik Ses Spektrogramı
oluştur ( Kapsam kapsamı, İşlenen < TFloat32 > giriş, Uzun pencere Boyutu, Uzun adım, Seçenekler... seçenekler)
Yeni bir AudioSpectrogram işlemini saran bir sınıf oluşturmaya yönelik fabrika yöntemi.
Statik AudioSpectrogram.Seçenekler
büyüklükKare (Boolean büyüklükKare)
Çıkış < TFloat32 >
spektrogram ()
Ses frekanslarının bir görüntü olarak 3 boyutlu gösterimi.

Kalıtsal Yöntemler

org.tensorflow.op.RawOp sınıfından
son boole değeri
eşittir (Nesne nesnesi)
son int
Operasyon
işlem ()
Bu hesaplama birimini tek bir Operation olarak döndürün.
son Dize
boolean
eşittir (Nesne arg0)
son Sınıf<?>
getClass ()
int
hash kodu ()
son boşluk
bildir ()
son boşluk
tümünü bildir ()
Sicim
toString ()
son boşluk
bekle (uzun arg0, int arg1)
son boşluk
bekle (uzun arg0)
son boşluk
Beklemek ()
org.tensorflow.op.Op arayüzünden
özet Yürütme Ortamı
env ()
Bu operasyonun oluşturulduğu yürütme ortamını döndürün.
soyut Operasyon
işlem ()
Bu hesaplama birimini tek bir Operation olarak döndürün.
org.tensorflow.Operand arayüzünden
özet Çıkış < TFloat32 >
Çıkış olarak ()
Tensörün sembolik tutamacını döndürür.
özet TFloat32
Tensör olarak ()
Bu işlenendeki tensörü döndürür.
soyut Şekil
şekil ()
Bu işlenenin Output tarafından başvurulan tensörün (muhtemelen kısmen bilinen) şeklini döndürür.
soyut Sınıf< TFloat32 >
tip ()
Bu işlenenin tensör türünü döndürür
org.tensorflow.ndarray.Shaped arayüzünden
soyut int
rütbe ()
soyut Şekil
şekil ()
soyut uzun
boyut ()
Bu kabın toplam boyutunu değer sayısı cinsinden hesaplar ve döndürür.

Sabitler

genel statik son Dize OP_NAME

Bu operasyonun TensorFlow çekirdek motoru tarafından bilinen adı

Sabit Değer: "AudioSpectrogram"

Genel Yöntemler

genel Çıkış < TFloat32 > asOutput ()

Tensörün sembolik tutamacını döndürür.

TensorFlow işlemlerinin girdileri, başka bir TensorFlow işleminin çıktılarıdır. Bu yöntem, girişin hesaplanmasını temsil eden sembolik bir tanıtıcı elde etmek için kullanılır.

genel statik AudioSpectrogram oluşturma ( Kapsam kapsamı, İşlenen < TFloat32 > giriş, Uzun pencere Boyutu, Uzun adım, Seçenekler... seçenekler)

Yeni bir AudioSpectrogram işlemini saran bir sınıf oluşturmaya yönelik fabrika yöntemi.

Parametreler
kapsam mevcut kapsam
giriş Ses verilerinin kayan gösterimi.
Pencere boyutu Örneklerde giriş penceresinin genişliği. En yüksek verimlilik için bu ikinin katı olmalıdır, ancak diğer değerler de kabul edilir.
adım Bitişik örnek pencerelerin merkezinin birbirinden ne kadar uzakta olması gerektiği.
seçenekler isteğe bağlı nitelik değerlerini taşır
İadeler
  • AudioSpectrogram'ın yeni bir örneği

genel statik SesSpektrogramı.Seçenekler büyüklüğüKare (Boolean büyüklüğüKare)

Parametreler
büyüklükKare Kare büyüklüğünün mü yoksa sadece büyüklüğün mü döndürüleceği. Kare büyüklüğün kullanılması ekstra hesaplamaları önleyebilir.

genel Çıkış < TFloat32 > spektrogram ()

Ses frekanslarının bir görüntü olarak 3 boyutlu gösterimi.