গুগল আই/ও একটি মোড়ক! TensorFlow সেশনগুলি দেখুন সেশনগুলি দেখুন

স্পিচ_কমান্ড

  • বর্ণনা :

কীওয়ার্ড স্পটিং সিস্টেমকে প্রশিক্ষণ ও মূল্যায়ন করতে সাহায্য করার জন্য কথ্য শব্দের একটি অডিও ডেটাসেট। এর প্রাথমিক লক্ষ্য হল ছোট মডেল তৈরি এবং পরীক্ষা করার একটি উপায় প্রদান করা যা শনাক্ত করে যখন একটি শব্দ উচ্চারিত হয়, দশ টার্গেট শব্দের একটি সেট থেকে, পটভূমির আওয়াজ বা সম্পর্কহীন বক্তৃতা থেকে যতটা সম্ভব কিছু মিথ্যা ইতিবাচক। লক্ষ্য করুন যে ট্রেন এবং বৈধতা সেটে, "অজানা" লেবেল টার্গেট শব্দ বা ব্যাকগ্রাউন্ড নয়েজের লেবেলের তুলনায় অনেক বেশি প্রচলিত। রিলিজ সংস্করণ থেকে একটি পার্থক্য হল নীরব অংশগুলি পরিচালনা করা। পরীক্ষার সেটে নীরবতার অংশগুলি নিয়মিত 1 সেকেন্ডের ফাইল, প্রশিক্ষণে সেগুলি "ব্যাকগ্রাউন্ড_নোইস" ফোল্ডারের অধীনে দীর্ঘ অংশ হিসাবে সরবরাহ করা হয়। এখানে আমরা এই ব্যাকগ্রাউন্ডের শব্দগুলিকে 1 সেকেন্ডের ক্লিপগুলিতে বিভক্ত করি এবং বৈধকরণ সেটের জন্য একটি ফাইলও রাখি।

বিভক্ত উদাহরণ
'test' 4,890
'train' ৮৫,৫১১
'validation' 10,102
  • বৈশিষ্ট্য :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=tf.int64),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=12),
})
  • উদ্ধৃতি :
@article{speechcommandsv2,
   author = { {Warden}, P.},
    title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
  journal = {ArXiv e-prints},
  archivePrefix = "arXiv",
  eprint = {1804.03209},
  primaryClass = "cs.CL",
  keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
    year = 2018,
    month = apr,
    url = {https://arxiv.org/abs/1804.03209},
}