वेक_विज़न

  • विवरण :

वेक विज़न एक बड़ा, उच्च गुणवत्ता वाला डेटासेट है जिसमें 6 मिलियन से अधिक छवियां हैं, जो वर्तमान टिनीएमएल डेटासेट (100x) के पैमाने और विविधता से काफी अधिक है। इस डेटासेट में एनोटेशन वाली छवियां शामिल हैं कि प्रत्येक छवि में एक व्यक्ति है या नहीं। इसके अतिरिक्त, इसमें निष्पक्षता और मजबूती का आकलन करने के लिए एक व्यापक बारीक बेंचमार्क शामिल है, जिसमें कथित लिंग, कथित उम्र, विषय दूरी, प्रकाश की स्थिति और चित्रण शामिल हैं। वेक विज़न लेबल ओपन इमेज के एनोटेशन से प्राप्त होते हैं जिन्हें CC BY 4.0 लाइसेंस के तहत Google LLC द्वारा लाइसेंस प्राप्त होता है। छवियों को CC BY 2.0 लाइसेंस के रूप में सूचीबद्ध किया गया है। ओपन इमेजेज से नोट: "जब हमने क्रिएटिव कॉमन्स एट्रिब्यूशन लाइसेंस के तहत लाइसेंस प्राप्त छवियों की पहचान करने की कोशिश की, तो हम प्रत्येक छवि की लाइसेंस स्थिति के संबंध में कोई प्रतिनिधित्व या वारंटी नहीं देते हैं और आपको प्रत्येक छवि के लिए लाइसेंस को स्वयं सत्यापित करना चाहिए।"

विभाजित करना उदाहरण
'test' 55,763
'train_large' 5,760,428
'train_quality' 1,248,230
'validation' 18,582
  • फ़ीचर संरचना :
FeaturesDict({
    'age_unknown': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'body_part': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'bright': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'dark': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'depiction': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'far': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'filename': Text(shape=(), dtype=string),
    'gender_unknown': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'medium_distance': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'middle_age': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'near': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'non-person_depiction': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'non-person_non-depiction': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'normal_lighting': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'older': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'person': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'person_depiction': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'predominantly_female': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'predominantly_male': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'young': ClassLabel(shape=(), dtype=int64, num_classes=2),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीप्रकार विवरण
फीचर्सडिक्ट
उम्र_अज्ञात क्लास लेबल int64
शरीर का अंग क्लास लेबल int64
चमकदार क्लास लेबल int64
अँधेरा क्लास लेबल int64
चित्रण क्लास लेबल int64
दूर क्लास लेबल int64
फ़ाइलनाम मूलपाठ डोरी
लिंग_अज्ञात क्लास लेबल int64
छवि छवि (कोई नहीं, कोई नहीं, 3) uint8
मध्यम_दूरी क्लास लेबल int64
मध्यम आयु क्लास लेबल int64
पास में क्लास लेबल int64
गैर-व्यक्ति_चित्रण क्लास लेबल int64
गैर-व्यक्ति_गैर-चित्रण क्लास लेबल int64
सामान्य_प्रकाश व्यवस्था क्लास लेबल int64
पुराने क्लास लेबल int64
व्यक्ति क्लास लेबल int64
व्यक्ति_चित्रण क्लास लेबल int64
मुख्य रूप से_महिला क्लास लेबल int64
मुख्य रूप से_पुरुष क्लास लेबल int64
युवा क्लास लेबल int64

VISUALIZATION

@article{banbury2024wake,
  title={Wake Vision: A Large-scale, Diverse Dataset and Benchmark Suite for TinyML Person Detection},
  author={Banbury, Colby and Njor, Emil and Stewart, Matthew and Warden, Pete and Kudlur, Manjunath and Jeffries, Nat and Fafoutis, Xenofon and Reddi, Vijay Janapa},
  journal={arXiv preprint arXiv:2405.00892},
  year={2024}
}