AudioSpectrogram

lớp cuối cùng công khai AudioSpectrogram

Tạo ra hình ảnh trực quan của dữ liệu âm thanh theo thời gian.

Biểu đồ phổ là một cách tiêu chuẩn để biểu diễn thông tin âm thanh dưới dạng một chuỗi các lát thông tin tần số, một lát cho mỗi cửa sổ thời gian. Bằng cách kết hợp những thứ này lại với nhau thành một chuỗi, chúng tạo thành dấu ấn đặc biệt của âm thanh theo thời gian.

Hoạt động này dự kiến ​​​​sẽ nhận dữ liệu âm thanh dưới dạng đầu vào, được lưu dưới dạng số float trong phạm vi -1 đến 1, cùng với độ rộng cửa sổ trong các mẫu và một bước chỉ định khoảng cách di chuyển cửa sổ giữa các lát. Từ đó nó tạo ra một đầu ra ba chiều. Thứ nguyên đầu tiên dành cho các kênh trong đầu vào, do đó, chẳng hạn như đầu vào âm thanh nổi sẽ có hai kênh ở đây. Chiều thứ hai là thời gian, với các lát tần số liên tiếp. Chiều thứ ba có giá trị biên độ cho mỗi tần số trong lát thời gian đó.

Điều này có nghĩa là bố cục khi được chuyển đổi và lưu dưới dạng hình ảnh sẽ được xoay 90 độ theo chiều kim đồng hồ so với biểu đồ phổ thông thường. Thời gian giảm dần theo trục Y và tần số giảm dần từ trái sang phải.

Mỗi giá trị trong kết quả biểu thị căn bậc hai của tổng phần thực và phần ảo của FFT trên cửa sổ mẫu hiện tại. Bằng cách này, chiều thấp nhất biểu thị sức mạnh của từng tần số trong cửa sổ hiện tại và các cửa sổ liền kề được nối với chiều tiếp theo.

Để có cái nhìn trực quan và trực quan hơn về hoạt động của thao tác này, bạn có thể chạy tensorflow/examples/wav_to_spectrogram để đọc trong tệp âm thanh và lưu biểu đồ phổ thu được dưới dạng hình ảnh PNG.

Các lớp lồng nhau

lớp học AudioSpectrogram.Options Thuộc tính tùy chọn cho AudioSpectrogram

Hằng số

Sợi dây OP_NAME Tên của op này, được biết đến bởi công cụ lõi TensorFlow

Phương pháp công khai

Đầu ra < TFloat32 >
asOutput ()
Trả về tay cầm tượng trưng của tensor.
Chương trình âm thanh tĩnh
tạo ( Phạm vi phạm vi, đầu vào Toán hạng < TFloat32 >, Kích thước cửa sổ dài, Bước tiến dài, Tùy chọn ... )
Phương thức gốc để tạo một lớp bao bọc một hoạt động AudioSpectrogram mới.
AudioSpectrogram.Options tĩnh
độ lớnSquared (Độ lớn BooleanSquared)
Đầu ra < TFloat32 >
quang phổ ()
Biểu diễn 3D của tần số âm thanh dưới dạng hình ảnh.

Phương pháp kế thừa

Hằng số

Chuỗi cuối cùng tĩnh công khai OP_NAME

Tên của op này, được biết đến bởi công cụ lõi TensorFlow

Giá trị không đổi: "Spectrogram âm thanh"

Phương pháp công khai

Đầu ra công khai < TFloat32 > asOutput ()

Trả về tay cầm tượng trưng của tensor.

Đầu vào của các hoạt động TensorFlow là đầu ra của một hoạt động TensorFlow khác. Phương pháp này được sử dụng để thu được một thẻ điều khiển mang tính biểu tượng đại diện cho việc tính toán đầu vào.

tạo AudioSpectrogram tĩnh công khai (Phạm vi phạm vi , Toán hạng < TFloat32 > đầu vào, Kích thước cửa sổ dài, Bước tiến dài, Tùy chọn... tùy chọn)

Phương thức gốc để tạo một lớp bao bọc một hoạt động AudioSpectrogram mới.

Thông số
phạm vi phạm vi hiện tại
đầu vào Biểu diễn nổi của dữ liệu âm thanh.
kích thước cửa sổ Cửa sổ nhập liệu rộng bao nhiêu trong các mẫu. Để có hiệu quả cao nhất, giá trị này phải là lũy thừa của hai, nhưng các giá trị khác được chấp nhận.
sải bước Khoảng cách giữa tâm của các cửa sổ mẫu liền kề sẽ rộng rãi như thế nào.
tùy chọn mang các giá trị thuộc tính tùy chọn
Trả lại
  • một phiên bản mới của AudioSpectrogram

tĩnh công khai AudioSpectrogram.Options cường độSquared (Boolean cường độSquared)

Thông số
độ lớnBình phương Trả về độ lớn bình phương hay chỉ độ lớn. Sử dụng độ lớn bình phương có thể tránh được việc tính toán thêm.

Đầu ra công khai < TFloat32 > biểu đồ phổ ()

Biểu diễn 3D của tần số âm thanh dưới dạng hình ảnh.