- Mô tả :
CREMA-D là bộ dữ liệu nghe nhìn để nhận dạng cảm xúc. Bộ dữ liệu bao gồm các biểu hiện cảm xúc trên khuôn mặt và giọng nói trong các câu được nói ở một loạt các trạng thái cảm xúc cơ bản (vui, buồn, tức giận, sợ hãi, ghê tởm và bình thường). 7.442 clip của 91 diễn viên đa dạng về sắc tộc đã được thu thập. Bản phát hành này chỉ chứa luồng âm thanh từ bản ghi nghe nhìn gốc. Các mẫu được phân chia giữa đào tạo, xác nhận và thử nghiệm để các mẫu từ mỗi loa thuộc về chính xác một phần chia.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/CheyneyComputerScience/CREMA-D
Mã nguồn :
tfds.audio.CremaD
Phiên bản :
-
1.0.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
579.25 MiB
Kích thước tập dữ liệu :
1.65 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.556 |
'train' | 5,144 |
'validation' | 738 |
- Cấu trúc tính năng :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int64),
'label': ClassLabel(shape=(), dtype=int64, num_classes=6),
'speaker_id': string,
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
âm thanh | âm thanh | (Không có,) | int64 | |
nhãn mác | LớpNhãn | int64 | ||
speaker_id | tenxơ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('audio', 'label')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{cao2014crema,
title={ {CREMA-D}: Crowd-sourced emotional multimodal actors dataset},
author={Cao, Houwei and Cooper, David G and Keutmann, Michael K and Gur, Ruben C and Nenkova, Ani and Verma, Ragini},
journal={IEEE transactions on affective computing},
volume={5},
number={4},
pages={377--390},
year={2014},
publisher={IEEE}
}