crema_d

  • Descrizione:

CREMA-D è un set di dati audiovisivi per il riconoscimento delle emozioni. Il set di dati è costituito da espressioni emotive facciali e vocali in frasi pronunciate in una serie di stati emotivi di base (felice, triste, rabbia, paura, disgusto e neutralità). Sono stati raccolti 7.442 filmati di 91 attori con diverse origini etniche. Questa versione contiene solo il flusso audio della registrazione audiovisiva originale. I campioni sono suddivisi tra treno, convalida e test in modo che i campioni di ciascun altoparlante appartengano esattamente a una suddivisione.

Diviso Esempi
'test' 1.556
'train' 5.144
'validation' 738
  • Caratteristiche:
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=tf.int64),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=6),
    'speaker_id': tf.string,
})
  • citazione:
@article{cao2014crema,
  title={ {CREMA-D}: Crowd-sourced emotional multimodal actors dataset},
  author={Cao, Houwei and Cooper, David G and Keutmann, Michael K and Gur, Ruben C and Nenkova, Ani and Verma, Ragini},
  journal={IEEE transactions on affective computing},
  volume={5},
  number={4},
  pages={377--390},
  year={2014},
  publisher={IEEE}
}