- विवरण :
वक्ता की पहचान के लिए एक बड़े पैमाने पर डेटासेट। यह डेटा कुल 150k से अधिक नमूनों के साथ 1,251 से अधिक वक्ताओं से एकत्र किया गया है। इस रिलीज़ में voxceleb1.1 डेटासेट का ऑडियो हिस्सा है।
अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें
होमपेज : http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html
स्रोत कोड :
tfds.audio.Voxcelebसंस्करण :
-
1.2.1(डिफ़ॉल्ट): youtube_id फ़ील्ड जोड़ें
-
डाउनलोड आकार :
4.68 MiBडेटासेट का आकार :
107.98 GiBमैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से
download_config.manual_dir(डिफ़ॉल्ट रूप से~/tensorflow_datasets/downloads/manual/) में डाउनलोड करना होगा:
मैन्युअल_डीआईआर में फ़ाइल vox_dev_wav.zip होनी चाहिए। इस फ़ाइल को डाउनलोड करने के निर्देश http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html में पाए जाते हैं इस डेटासेट को पंजीकरण की आवश्यकता है।ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 7,972 |
'train' | 134,000 |
'validation' | 6,670 |
- फ़ीचर संरचना :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int64),
'label': ClassLabel(shape=(), dtype=int64, num_classes=1252),
'youtube_id': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| विशेषताएं डिक्ट | ||||
| ऑडियो | ऑडियो | (कोई भी नहीं,) | int64 | |
| लेबल | क्लासलेबल | int64 | ||
| youtube_id | मूलपाठ | डोरी |
पर्यवेक्षित कुंजी (
as_supervisedदस्तावेज़ देखें):('audio', 'label')चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@InProceedings{Nagrani17,
author = "Nagrani, A. and Chung, J.~S. and Zisserman, A.",
title = "VoxCeleb: a large-scale speaker identification dataset",
booktitle = "INTERSPEECH",
year = "2017",
}