crema_d

  • Описание :

CREMA-D — это набор аудиовизуальных данных для распознавания эмоций. Набор данных состоит из лицевых и голосовых эмоциональных выражений в предложениях, произносимых в различных основных эмоциональных состояниях (счастливом, грустном, гневе, страхе, отвращении и нейтральном). Было собрано 7 442 клипа 91 актера разного этнического происхождения. Этот релиз содержит только аудиопоток из оригинальной аудиовизуальной записи. Образцы разделены между обучением, проверкой и тестированием, так что образцы от каждого спикера принадлежат ровно одному сплиту.

Расколоть Примеры
'test' 1556
'train' 5144
'validation' 738
  • Структура функции :
FeaturesDict({
   
'audio': Audio(shape=(None,), dtype=int64),
   
'label': ClassLabel(shape=(), dtype=int64, num_classes=6),
   
'speaker_id': string,
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
аудио Аудио (Никто,) int64
этикетка Метка класса int64
спикер_ид Тензор нить
  • Цитата :
@article{cao2014crema,
  title
={ {CREMA-D}: Crowd-sourced emotional multimodal actors dataset},
  author
={Cao, Houwei and Cooper, David G and Keutmann, Michael K and Gur, Ruben C and Nenkova, Ani and Verma, Ragini},
  journal
={IEEE transactions on affective computing},
  volume
={5},
  number
={4},
  pages
={377--390},
  year
={2014},
  publisher
={IEEE}
}