- Mô tả:
Tập dữ liệu được thu thập cho mục đích phân biệt âm nhạc / giọng nói. Tập dữ liệu bao gồm 120 bản nhạc, mỗi bản nhạc dài 30 giây. Mỗi lớp (âm nhạc / lời nói) có 60 ví dụ. Các bản nhạc đều là tệp âm thanh 22050Hz Mono 16-bit ở định dạng .wav.
Trang chủ: http://marsyas.info/index.html
Source code:
tfds.audio.gtzan_music_speech.GTZANMusicSpeech
phiên bản:
-
1.0.0
(mặc định): Không có ghi chú phát hành.
-
Dung lượng tải về:
283.29 MiB
Dataset kích thước:
424.64 MiB
Tự động lưu trữ ( tài liệu ): Không
tách:
Tách ra | Các ví dụ |
---|---|
'train' | 128 |
- Các tính năng:
FeaturesDict({
'audio': Audio(shape=(None,), dtype=tf.int64),
'audio/filename': Text(shape=(), dtype=tf.string),
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
})
Phím giám sát (Xem
as_supervised
doc ):('audio', 'label')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- Trích dẫn:
@ONLINE {Music Speech,
author = "Tzanetakis, George",
title = "GTZAN Music/Speech Collection",
year = "1999",
url = "http://marsyas.info/index.html"
}