- विवरण :
CREMA-D भावनाओं की पहचान के लिए एक ऑडियो-विजुअल डेटा सेट है। डेटा सेट में बुनियादी भावनात्मक अवस्थाओं (खुश, उदास, क्रोध, भय, घृणा और तटस्थ) की एक श्रृंखला में बोले जाने वाले वाक्यों में चेहरे और मुखर भावनात्मक अभिव्यक्तियाँ होती हैं। विविध जातीय पृष्ठभूमि वाले 91 अभिनेताओं के 7,442 क्लिप एकत्र किए गए थे। इस रिलीज में मूल ऑडियो-विजुअल रिकॉर्डिंग से केवल ऑडियो स्ट्रीम शामिल है। नमूने ट्रेन, सत्यापन और परीक्षण के बीच विभाजित होते हैं ताकि प्रत्येक स्पीकर के नमूने बिल्कुल एक विभाजन से संबंधित हों।
अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें
स्रोत कोड :
tfds.audio.CremaDसंस्करण :
-
1.0.0(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
डाउनलोड आकार :
579.25 MiBडेटासेट का आकार :
1.65 GiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 1,556 |
'train' | 5,144 |
'validation' | 738 |
- फ़ीचर संरचना :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int64),
'label': ClassLabel(shape=(), dtype=int64, num_classes=6),
'speaker_id': string,
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| विशेषताएं डिक्ट | ||||
| ऑडियो | ऑडियो | (कोई भी नहीं,) | int64 | |
| लेबल | क्लासलेबल | int64 | ||
| स्पीकर_आईडी | टेन्सर | डोरी |
पर्यवेक्षित कुंजी (
as_supervisedदस्तावेज़ देखें):('audio', 'label')चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@article{cao2014crema,
title={ {CREMA-D}: Crowd-sourced emotional multimodal actors dataset},
author={Cao, Houwei and Cooper, David G and Keutmann, Michael K and Gur, Ruben C and Nenkova, Ani and Verma, Ragini},
journal={IEEE transactions on affective computing},
volume={5},
number={4},
pages={377--390},
year={2014},
publisher={IEEE}
}