พูด_ตัวเลข

  • คำอธิบาย :

ชุดข้อมูลเสียงตัวเลขที่พูดได้ฟรี คิดว่า MNIST สำหรับเสียง

ชุดข้อมูลเสียง/เสียงพูดอย่างง่ายประกอบด้วยการบันทึกตัวเลขที่พูดในไฟล์ wav ที่ 8kHz การบันทึกถูกตัดแต่งเพื่อให้มีความเงียบเกือบน้อยที่สุดในตอนเริ่มต้นและตอนท้าย

5 ลำโพง
บันทึกได้ 2,500 รายการ (50 หลักต่อลำโพง)
การออกเสียงภาษาอังกฤษ

ไฟล์มีชื่อในรูปแบบต่อไปนี้: {digitLabel} {speakerName} {index}.wav

แยก ตัวอย่าง
'train' 2,500
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'audio/filename': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
เสียง เครื่องเสียง (ไม่มี,) int64
เสียง/ชื่อไฟล์ ข้อความ สตริง
ฉลาก ป้ายกำกับคลาส int64
  • การอ้างอิง :
@ONLINE {Free Spoken Digit Dataset,
    author = "Zohar Jackson",
    title  = "Spoken_Digit",
    year   = "2016",
    url    = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}