복셀렙

  • 설명 :

화자 식별을 위한 대규모 데이터 세트입니다. 이 데이터는 총 150,000개가 넘는 샘플과 함께 1,251명 이상의 화자로부터 수집됩니다. 이 릴리스에는 voxceleb1.1 데이터 세트의 오디오 부분이 포함되어 있습니다.

나뉘다
'test' 7,972
'train' 134,000
'validation' 6,670
  • 기능 구조 :
FeaturesDict({
   
'audio': Audio(shape=(None,), dtype=int64),
   
'label': ClassLabel(shape=(), dtype=int64, num_classes=1252),
   
'youtube_id': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
오디오 오디오 (없음,) int64
상표 클래스 레이블 int64
youtube_id 텍스트
  • 인용 :
@InProceedings{Nagrani17,
    author      
= "Nagrani, A. and Chung, J.~S. and Zisserman, A.",
    title        
= "VoxCeleb: a large-scale speaker identification dataset",
    booktitle    
= "INTERSPEECH",
    year        
= "2017",
}