- Mô tả :
SAVEE (Surrey Audio-Visual Expressed Emotion) là một bộ dữ liệu nhận dạng cảm xúc. Nó bao gồm các bản ghi âm của 4 diễn viên nam với 7 cảm xúc khác nhau, tổng cộng là 480 cách nói tiếng Anh của người Anh. Các câu được chọn từ kho văn bản TIMIT tiêu chuẩn và được cân bằng về mặt ngữ âm cho từng cảm xúc. Bản phát hành này chỉ chứa luồng âm thanh từ bản ghi nghe nhìn gốc.
Dữ liệu được phân chia sao cho tập huấn luyện bao gồm 2 người nói và cả tập xác nhận và kiểm tra đều bao gồm các mẫu tương ứng từ 1 người nói.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : http://kahlan.eps.surrey.ac.uk/savee/
Mã nguồn :
tfds.datasets.savee.Builder
Phiên bản :
-
1.0.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
Unknown size
Kích thước tập dữ liệu :
259.15 MiB
Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào
download_config.manual_dir
(mặc định là~/tensorflow_datasets/downloads/manual/
):
manual_dir phải chứa tệp AudioData.zip. Tệp này phải nằm trong Data/Zip/AudioData.zip trong thư mục tập dữ liệu được cung cấp khi đăng ký. Bạn cần đăng ký tại http://personal.ee.surrey.ac.uk/Personal/P.Jackson/SAVEE/Register.html để nhận liên kết tải xuống tập dữ liệu.Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 120 |
'train' | 240 |
'validation' | 120 |
- Cấu trúc tính năng :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int64),
'label': ClassLabel(shape=(), dtype=int64, num_classes=7),
'speaker_id': string,
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
âm thanh | âm thanh | (Không có,) | int64 | |
nhãn mác | LớpNhãn | int64 | ||
speaker_id | tenxơ | chuỗi |
Các khóa được giám sát (Xem
as_supervised
doc ):('audio', 'label')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{Vlasenko_combiningframe,
author = {Vlasenko, Bogdan and Schuller, Bjorn and Wendemuth, Andreas and Rigoll, Gerhard},
year = {2007},
month = {01},
pages = {2249-2252},
title = {Combining frame and turn-level information for robust recognition of emotions within speech},
journal = {Proceedings of Interspeech}
}