imagenet2012

ILSVRC 2012 که معمولاً به عنوان "ImageNet" شناخته می شود یک مجموعه داده تصویری است که بر اساس سلسله مراتب WordNet سازماندهی شده است. هر مفهوم معناداری در WordNet، که احتمالاً با چندین کلمه یا عبارات کلمه توصیف می شود، "مجموعه مترادف" یا "synset" نامیده می شود. بیش از 100000 synset در WordNet وجود دارد که اکثر آنها اسم هستند (80000+). در ImageNet، هدف ما ارائه به طور متوسط ​​1000 تصویر برای نشان دادن هر synset است. تصاویر هر مفهوم با کیفیت کنترل شده و مشروح شده توسط انسان است. در تکمیل آن، امیدواریم ImageNet ده‌ها میلیون تصویر مرتب‌شده را برای اکثر مفاهیم در سلسله مراتب WordNet ارائه دهد.

تقسیم آزمایشی شامل 100 هزار تصویر است اما هیچ برچسبی ندارد زیرا هیچ برچسبی به طور عمومی منتشر نشده است. ما از تقسیم آزمایشی از سال 2012 با وصله کوچک منتشر شده در 10 اکتبر 2019 پشتیبانی می کنیم. برای دانلود دستی این داده ها، کاربر باید عملیات زیر را انجام دهد:

  1. تقسیم آزمون 2012 را از اینجا دانلود کنید.
  2. پچ 10 اکتبر 2019 را دانلود کنید. یک پیوند Google Drive به پچ ارائه شده در همان صفحه وجود دارد.
  3. دو توپ تار را با هم ترکیب کنید و هر تصویری را که در آرشیو اصلی وجود دارد را با تصاویری از پچ به صورت دستی بازنویسی کنید. طبق دستورالعمل های موجود در image-net.org، این روش فقط چند تصویر را بازنویسی می کند.

سپس توپ تار حاصل می تواند توسط TFDS پردازش شود.

برای ارزیابی دقت یک مدل در تقسیم آزمایشی ImageNet، باید استنتاج را روی همه تصاویر در تقسیم اجرا کرد، آن نتایج را به یک فایل متنی صادر کرد که باید در سرور ارزیابی ImageNet آپلود شود. نگهدارنده سرور ارزیابی ImageNet به یک کاربر اجازه می دهد تا حداکثر 2 مورد را در هفته ارسال کند تا از برازش بیش از حد جلوگیری شود.

برای ارزیابی دقت در تقسیم تست، ابتدا باید یک حساب کاربری در image-net.org ایجاد کنید. این حساب باید توسط مدیر سایت تایید شود. پس از ایجاد حساب، می‌توان نتایج را به سرور آزمون در آدرس https://image-net.org/challenges/LSVRC/eval_server.php ارسال کرد. وظیفه مورد علاقه "ارسال طبقه بندی (خطای بالای 5 cls)" است. نمونه ای از یک فایل متنی صادر شده به شکل زیر است:

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

فرمت صادرات به طور کامل در "readme.txt" در کیت توسعه 2013 موجود در اینجا توضیح داده شده است: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz لطفا به بخش با عنوان "3.3 CLS-LOC مراجعه کنید. فرمت ارسال". به طور خلاصه، فرمت فایل متنی 100000 خط مربوط به هر تصویر در تقسیم آزمایشی است. هر خط از اعداد صحیح با 5 پیش‌بینی برتر برای هر تصویر آزمایشی مطابقت دارد. اعداد صحیح مطابق با شماره خط در فایل برچسب های مربوطه، 1 نمایه می شوند. labels.txt را ببینید.

  • اسناد اضافی : کاوش در کاغذها با کد

  • صفحه اصلی : https://image-net.org/

  • کد منبع : tfds.datasets.imagenet2012.Builder

  • نسخه ها :

    • 2.0.0 : برچسب های اعتبار سنجی را برطرف کنید.
    • 2.0.1 : رفع کدگذاری. هیچ تغییری از نظر کاربر وجود ندارد.
    • 3.0.0 : رفع رنگ آمیزی در 12 تصویر (CMYK -> RGB). ثابت فرمت (تبدیل تصویر png به Jpeg). خواندن سریعتر نسل به طور مستقیم از آرشیو.

    • 4.0.0 : (منتشر نشده)

    • 5.0.0 : API تقسیم جدید ( https://tensorflow.org/datasets/splits )

    • 5.1.0 (پیش فرض): تقسیم آزمایشی اضافه شد.

  • اندازه دانلود : Unknown size

  • حجم مجموعه داده : 155.84 GiB

  • دستورالعمل‌های دانلود دستی : این مجموعه داده از شما می‌خواهد که داده‌های منبع را به صورت دستی در download_config.manual_dir دانلود کنید (پیش‌فرض ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir باید شامل دو فایل باشد: ILSVRC2012_img_train.tar و ILSVRC2012_img_val.tar. برای دریافت لینک دانلود مجموعه داده، باید در https://image-net.org/download-images ثبت نام کنید.

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 100000
'train' 1,281,167
'validation' 50000
  • ساختار ویژگی :
FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
نام فایل متن رشته
تصویر تصویر (هیچ، هیچ، 3) uint8
برچسب ClassLabel int64

تجسم

  • نقل قول :
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}