imagenet2012

ILSVRC 2012, הידוע בכינויו 'ImageNet' הוא מערך נתונים המאורגן לפי ההיררכיה של WordNet. כל מושג בעל משמעות ב-WordNet, המתואר אולי על ידי מספר מילים או ביטויי מילים, נקרא "סט מילים נרדפות" או "synset". יש יותר מ-100,000 synsets ב-WordNet, רובם הם שמות עצם (80,000+). ב-ImageNet, אנו שואפים לספק בממוצע 1000 תמונות כדי להמחיש כל synset. התמונות של כל קונספט מבוקרות איכות ומוערות אנושיות. בהשלמתו, אנו מקווים ש-ImageNet תציע עשרות מיליוני תמונות ממוינות בצורה נקייה עבור רוב המושגים בהיררכיית WordNet.

פיצול הבדיקה מכיל 100K תמונות אך ללא תוויות מכיוון שלא פורסמו תוויות לציבור. אנו מספקים תמיכה לפיצול הבדיקה משנת 2012 עם התיקון הקטן שפורסם ב-10 באוקטובר 2019. על מנת להוריד נתונים אלה באופן ידני, על המשתמש לבצע את הפעולות הבאות:

  1. הורד את חלוקת המבחנים לשנת 2012 הזמין כאן .
  2. הורד את התיקון של 10 באוקטובר 2019. יש קישור של Google Drive לתיקון המסופק באותו עמוד.
  3. שלב את שני כדורי הזפת, החלף ידנית כל תמונה בארכיון המקורי עם תמונות מהתיקון. לפי ההוראות ב-image-net.org, הליך זה מחליף רק כמה תמונות.

לאחר מכן ניתן לעבד את כדור הזפת שנוצר על ידי TFDS.

כדי להעריך את הדיוק של מודל בפיצול הבדיקה של ImageNet, יש להפעיל הסקה על כל התמונות בפיצול, לייצא את התוצאות הללו לקובץ טקסט שיש להעלות לשרת ההערכה של ImageNet. מנהלי שרת ההערכה ImageNet מאפשרים למשתמש יחיד להגיש עד 2 הגשות בשבוע על מנת למנוע התאמה יתר.

כדי להעריך את הדיוק בפיצול הבדיקה, יש ליצור תחילה חשבון ב-image-net.org. חשבון זה חייב להיות מאושר על ידי מנהל האתר. לאחר יצירת החשבון, ניתן לשלוח את התוצאות לשרת הבדיקה בכתובת https://image-net.org/challenges/LSVRC/eval_server.php ההגשה מורכבת ממספר קבצי טקסט ASCII התואמים למספר משימות. משימת העניין היא "הגשת סיווג (שגיאת 5 CLS)". דוגמה של קובץ טקסט מיוצא נראה כך:

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

פורמט הייצוא מתואר במלואו ב-"readme.txt" בערכת הפיתוח של 2013 הזמינה כאן: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz אנא עיין בסעיף שכותרתו "3.3 CLS-LOC פורמט הגשה". בקצרה, הפורמט של קובץ הטקסט הוא 100,000 שורות המתאימות לכל תמונה בפיצול הבדיקה. כל שורה של מספרים שלמים מתאימה ל-5 התחזיות המובילות לפי הדרגה עבור כל תמונת בדיקה. המספרים השלמים הם באינדקס 1 המתאים למספר השורה בקובץ התוויות המתאים. ראה labels.txt.

  • תיעוד נוסף : חקור על ניירות עם קוד

  • דף הבית : https://image-net.org/

  • קוד מקור : tfds.datasets.imagenet2012.Builder

  • גרסאות :

    • 2.0.0 : תקן תוויות אימות.
    • 2.0.1 : תיקון קידוד. אין שינויים מנקודת המבט של המשתמש.
    • 3.0.0 : תקן צבעוניות על ~12 תמונות (CMYK -> RGB). תקן פורמט לעקביות (המר את תמונת ה-png הבודדת ל-Jpeg). קריאה מהירה יותר מהדור ישירות מהארכיון.

    • 4.0.0 : (לא פורסם)

    • 5.0.0 : API חדש מפוצל ( https://tensorflow.org/datasets/splits )

    • 5.1.0 (ברירת מחדל): נוסף פיצול בדיקה.

  • גודל הורדה : Unknown size

  • גודל מערך נתונים : 155.84 GiB

  • הוראות הורדה ידניות : מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני אל download_config.manual_dir (ברירת המחדל היא ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir צריך להכיל שני קבצים: ILSVRC2012_img_train.tar ו-ILSVRC2012_img_val.tar. עליך להירשם ב- https://image-net.org/download-images כדי לקבל את הקישור להורדת מערך הנתונים.

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 100,000
'train' 1,281,167
'validation' 50,000
  • מבנה תכונה :
FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
שם קובץ טֶקסט חוּט
תמונה תמונה (אין, אין, 3) uint8
תווית ClassLabel int64

רְאִיָה

  • ציטוט :
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}