- Mô tả:
CREMA-D là bộ dữ liệu nghe nhìn để nhận dạng cảm xúc. Tập dữ liệu bao gồm các biểu hiện cảm xúc trên khuôn mặt và giọng nói trong các câu nói ở một loạt các trạng thái cảm xúc cơ bản (vui, buồn, tức giận, sợ hãi, ghê tởm và trung tính). 7.442 clip của 91 diễn viên với nhiều nguồn gốc dân tộc khác nhau đã được thu thập. Bản phát hành này chỉ chứa luồng âm thanh từ bản ghi âm thanh-hình ảnh gốc. Các mẫu được phân chia giữa quá trình đào tạo, xác nhận và thử nghiệm để các mẫu từ mỗi loa thuộc về chính xác một lần phân chia.
Trang chủ: https://github.com/CheyneyComputerScience/CREMA-D
Source code:
tfds.audio.CremaD
phiên bản:
-
1.0.0
(mặc định): Không có ghi chú phát hành.
-
Dung lượng tải về:
579.25 MiB
Kích thước tập dữ liệu:
1.65 GiB
Tự động lưu trữ ( tài liệu ): Không
tách:
Tách ra | Các ví dụ |
---|---|
'test' | 1.556 |
'train' | 5.144 |
'validation' | 738 |
- Các tính năng:
FeaturesDict({
'audio': Audio(shape=(None,), dtype=tf.int64),
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=6),
'speaker_id': tf.string,
})
Phím giám sát (Xem
as_supervised
doc ):('audio', 'label')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- Trích dẫn:
@article{cao2014crema,
title={ {CREMA-D}: Crowd-sourced emotional multimodal actors dataset},
author={Cao, Houwei and Cooper, David G and Keutmann, Michael K and Gur, Ruben C and Nenkova, Ani and Verma, Ragini},
journal={IEEE transactions on affective computing},
volume={5},
number={4},
pages={377--390},
year={2014},
publisher={IEEE}
}