พูด_ตัวเลข

คำอธิบาย :

ชุดข้อมูลเสียงตัวเลขที่พูดได้ฟรี คิดว่า MNIST สำหรับเสียง

ชุดข้อมูลเสียง/เสียงพูดอย่างง่ายประกอบด้วยการบันทึกตัวเลขที่พูดในไฟล์ wav ที่ 8kHz การบันทึกถูกตัดแต่งเพื่อให้มีความเงียบเกือบน้อยที่สุดในตอนเริ่มต้นและตอนท้าย

5 ลำโพง
บันทึกได้ 2,500 รายการ (50 หลักต่อลำโพง)
การออกเสียงภาษาอังกฤษ

ไฟล์มีชื่อในรูปแบบต่อไปนี้: {digitLabel} {speakerName} {index}.wav

เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
หน้าแรก : https://github.com/Jakobovski/free-spoken-digit-dataset
รหัสที่มา : tfds.datasets.spoken_digit.Builder
รุ่น :
- 1.0.9 (ค่าเริ่มต้น): ไม่มีบันทึกประจำรุ่น
ขนาดการดาวน์โหลด : 11.42 MiB
ขนาดชุดข้อมูล : 45.68 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :

แยก	ตัวอย่าง
`'train'`	2,500

โครงสร้างคุณลักษณะ :

FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'audio/filename': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})

เอกสารคุณสมบัติ :

ลักษณะเฉพาะ	ระดับ	รูปร่าง	Dประเภท
	คุณสมบัติDict
เสียง	เครื่องเสียง	(ไม่มี,)	int64
เสียง/ชื่อไฟล์	ข้อความ		สตริง
ฉลาก	ป้ายกำกับคลาส		int64

คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('audio', 'label')
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ):

การอ้างอิง :

@ONLINE {Free Spoken Digit Dataset,
    author = "Zohar Jackson",
    title  = "Spoken_Digit",
    year   = "2016",
    url    = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}