ljspeech

  • বর্ণনা :

এটি একটি পাবলিক ডোমেন স্পিচ ডেটাসেট যাতে 7টি নন-ফিকশন বই থেকে একটি একক স্পিকার পড়ার অনুচ্ছেদের 13,100টি ছোট অডিও ক্লিপ রয়েছে। প্রতিটি ক্লিপের জন্য একটি প্রতিলিপি প্রদান করা হয়। ক্লিপগুলির দৈর্ঘ্য 1 থেকে 10 সেকেন্ডের মধ্যে পরিবর্তিত হয় এবং মোট দৈর্ঘ্য প্রায় 24 ঘন্টা থাকে।

পাঠ্যগুলি 1884 এবং 1964 সালের মধ্যে প্রকাশিত হয়েছিল এবং সর্বজনীন ডোমেনে রয়েছে। অডিওটি 2016-17 সালে LibriVox প্রকল্প দ্বারা রেকর্ড করা হয়েছিল এবং এটি সর্বজনীন ডোমেনেও রয়েছে।

বিভক্ত উদাহরণ
'train' 13,100
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
   
'id': string,
   
'speech': Audio(shape=(None,), dtype=int16),
   
'text': Text(shape=(), dtype=string),
   
'text_normalized': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
আইডি টেনসর স্ট্রিং
বক্তৃতা শ্রুতি (কোনটিই নয়,) int16
পাঠ্য পাঠ্য স্ট্রিং
টেক্সট_নর্মালাইজড পাঠ্য স্ট্রিং
  • উদ্ধৃতি :
@misc{ljspeech17,
  author      
= {Keith Ito},
  title        
= {The LJ Speech Dataset},
  howpublished
= {\url{https://keithito.com/LJ-Speech-Dataset/} },
  year        
= 2017
}