TensorFlow.org এ দেখুন | Google Colab-এ চালান | GitHub এ দেখুন | নোটবুক ডাউনলোড করুন | TF হাব মডেল দেখুন |
YAMNet একটি গভীর নেট যে 521 অডিও ঘটনা অনুমান হয় ক্লাস থেকে AudioSet-ইউটিউব কর্পাস এটিতে প্রশিক্ষণ নেন। এটা তোলে নিয়োগ Mobilenet_v1 depthwise-খণ্ডনীয় সংবর্তন স্থাপত্য।
import tensorflow as tf
import tensorflow_hub as hub
import numpy as np
import csv
import matplotlib.pyplot as plt
from IPython.display import Audio
from scipy.io import wavfile
টেনসরফ্লো হাব থেকে মডেলটি লোড করুন।
# Load the model.
model = hub.load('https://tfhub.dev/google/yamnet/1')
লেবেল ফাইল মডেল সম্পদ থেকে লোড হবে এবং বর্তমান এ model.class_map_path()
আপনি তে এটি লোড করা হবে class_names
পরিবর্তনশীল।
# Find the name of the class with the top score when mean-aggregated across frames.
def class_names_from_csv(class_map_csv_text):
"""Returns list of class names corresponding to score vector."""
class_names = []
with tf.io.gfile.GFile(class_map_csv_text) as csvfile:
reader = csv.DictReader(csvfile)
for row in reader:
class_names.append(row['display_name'])
return class_names
class_map_path = model.class_map_path().numpy()
class_names = class_names_from_csv(class_map_path)
একটি লোড করা অডিও সঠিক নমুনা_রেট (16K) এ যাচাই এবং রূপান্তর করার জন্য একটি পদ্ধতি যোগ করুন, অন্যথায় এটি মডেলের ফলাফলকে প্রভাবিত করবে।
def ensure_sample_rate(original_sample_rate, waveform,
desired_sample_rate=16000):
"""Resample waveform if required."""
if original_sample_rate != desired_sample_rate:
desired_length = int(round(float(len(waveform)) /
original_sample_rate * desired_sample_rate))
waveform = scipy.signal.resample(waveform, desired_length)
return desired_sample_rate, waveform
সাউন্ড ফাইল ডাউনলোড এবং প্রস্তুত করা হচ্ছে
এখানে আপনি একটি wav ফাইল ডাউনলোড করে শুনবেন। যদি আপনার কাছে ইতিমধ্যেই একটি ফাইল উপলব্ধ থাকে, তাহলে এটি শুধুমাত্র কোলাবে আপলোড করুন এবং পরিবর্তে এটি ব্যবহার করুন।
curl -O https://storage.googleapis.com/audioset/speech_whistling2.wav
% Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed 100 153k 100 153k 0 0 267k 0 --:--:-- --:--:-- --:--:-- 266k
curl -O https://storage.googleapis.com/audioset/miaow_16k.wav
% Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed 100 210k 100 210k 0 0 185k 0 0:00:01 0:00:01 --:--:-- 185k
# wav_file_name = 'speech_whistling2.wav'
wav_file_name = 'miaow_16k.wav'
sample_rate, wav_data = wavfile.read(wav_file_name, 'rb')
sample_rate, wav_data = ensure_sample_rate(sample_rate, wav_data)
# Show some basic information about the audio.
duration = len(wav_data)/sample_rate
print(f'Sample rate: {sample_rate} Hz')
print(f'Total duration: {duration:.2f}s')
print(f'Size of the input: {len(wav_data)}')
# Listening to the wav file.
Audio(wav_data, rate=sample_rate)
Sample rate: 16000 Hz Total duration: 6.73s Size of the input: 107698 /tmpfs/src/tf_docs_env/lib/python3.7/site-packages/ipykernel_launcher.py:3: WavFileWarning: Chunk (non-data) not understood, skipping it. This is separate from the ipykernel package so we can avoid doing imports until
wav_data
চাহিদা মধ্যে মান স্বাভাবিক করা [-1.0, 1.0]
(যেমন মডেলের বিবৃত ডকুমেন্টেশন )।
waveform = wav_data / tf.int16.max
মডেল নির্বাহ করা
এখন সহজ অংশ: ইতিমধ্যে প্রস্তুত করা ডেটা ব্যবহার করে, আপনি কেবল মডেলটিকে কল করুন এবং পান: স্কোর, এম্বেডিং এবং স্পেকট্রোগ্রাম।
স্কোর হল প্রধান ফলাফল যা আপনি ব্যবহার করবেন। স্পেকট্রোগ্রাম আপনি পরে কিছু ভিজ্যুয়ালাইজেশন করতে ব্যবহার করবেন।
# Run the model, check the output.
scores, embeddings, spectrogram = model(waveform)
scores_np = scores.numpy()
spectrogram_np = spectrogram.numpy()
infered_class = class_names[scores_np.mean(axis=0).argmax()]
print(f'The main sound is: {infered_class}')
The main sound is: Animal
ভিজ্যুয়ালাইজেশন
YAMNet কিছু অতিরিক্ত তথ্যও ফেরত দেয় যা আমরা ভিজ্যুয়ালাইজেশনের জন্য ব্যবহার করতে পারি। আসুন ওয়েভফর্ম, বর্ণালীগ্রাম এবং অনুমানকৃত শীর্ষ শ্রেণীর উপর নজর রাখি।
plt.figure(figsize=(10, 6))
# Plot the waveform.
plt.subplot(3, 1, 1)
plt.plot(waveform)
plt.xlim([0, len(waveform)])
# Plot the log-mel spectrogram (returned by the model).
plt.subplot(3, 1, 2)
plt.imshow(spectrogram_np.T, aspect='auto', interpolation='nearest', origin='lower')
# Plot and label the model output scores for the top-scoring classes.
mean_scores = np.mean(scores, axis=0)
top_n = 10
top_class_indices = np.argsort(mean_scores)[::-1][:top_n]
plt.subplot(3, 1, 3)
plt.imshow(scores_np[:, top_class_indices].T, aspect='auto', interpolation='nearest', cmap='gray_r')
# patch_padding = (PATCH_WINDOW_SECONDS / 2) / PATCH_HOP_SECONDS
# values from the model documentation
patch_padding = (0.025 / 2) / 0.01
plt.xlim([-patch_padding-0.5, scores.shape[0] + patch_padding-0.5])
# Label the top_N classes.
yticks = range(0, top_n, 1)
plt.yticks(yticks, [class_names[top_class_indices[x]] for x in yticks])
_ = plt.ylim(-0.5 + np.array([top_n, 0]))