voxceleb

  • Mô tả :

Một bộ dữ liệu quy mô lớn để nhận dạng người nói. Dữ liệu này được thu thập từ hơn 1.251 người nói, với tổng số hơn 150 nghìn mẫu. Bản phát hành này chứa phần âm thanh của bộ dữ liệu voxceleb1.1.

Tách ra ví dụ
'test' 7,972
'train' 134.000
'validation' 6.670
  • Cấu trúc tính năng :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1252),
    'youtube_id': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
âm thanh âm thanh (Không có,) int64
nhãn mác LớpNhãn int64
youtube_id Chữ sợi dây
  • trích dẫn :
@InProceedings{Nagrani17,
    author       = "Nagrani, A. and Chung, J.~S. and Zisserman, A.",
    title        = "VoxCeleb: a large-scale speaker identification dataset",
    booktitle    = "INTERSPEECH",
    year         = "2017",
}