- توضیحات :
Controlled Noisy Web Labels مجموعهای از 212000 URL به تصاویر است که در آن هر تصویر با دقت توسط 3-5 متخصص برچسبگذاری توسط سرویس برچسبگذاری دادههای ابری Google حاشیهنویسی میشود. با استفاده از این حاشیه نویسی، اولین معیار نویز کنترل شده برچسب دنیای واقعی از وب را ایجاد می کند.
ما پیکربندیهای Red Mini-ImageNet (نویز وب دنیای واقعی) و آبی Mini-ImageNet را ارائه میکنیم: - controlled_noisy_web_labels/mini_imagenet_red - controlled_noisy_web_labels/mini_imagenet_blue
هر پیکربندی شامل ده نوع با ده سطح نویز p از 0٪ تا 80٪ است. مجموعه اعتبار سنجی دارای برچسب های تمیز است و در تمام مجموعه های آموزشی پر سر و صدا به اشتراک گذاشته می شود. بنابراین، هر پیکربندی دارای تقسیمات زیر است:
- قطار_00
- قطار_05
- train_10
- قطار_15
- قطار_20
- قطار_30
- قطار_40
- قطار_50
- قطار_60
- قطار_80
- اعتبار سنجی
جزئیات ساخت و تجزیه و تحلیل مجموعه داده را می توان در مقاله یافت. همه تصاویر به وضوح 84x84 تغییر اندازه می دهند.
صفحه اصلی : https://google.github.io/controlled-noisy-web-labels/index.html
کد منبع :
tfds.image_classification.controlled_noisy_web_labels.ControlledNoisyWebLabels
نسخه ها :
-
1.0.0
(پیش فرض): انتشار اولیه.
-
حجم دانلود :
1.83 MiB
دستورالعملهای دانلود دستی : این مجموعه داده از شما میخواهد که دادههای منبع را به صورت دستی در
download_config.manual_dir
(پیشفرض~/tensorflow_datasets/downloads/manual/
):
برای دانلود دستی این داده ها، کاربر باید عملیات زیر را انجام دهد:
- تقسیم ها و حاشیه نویسی ها را از اینجا دانلود کنید
- مجموعه داده_no_images.zip را به مجموعه داده_no_images/ استخراج کنید.
- همه تصاویر موجود در database_no_images/mini-imagenet-annotations.json را در یک پوشه جدید به نام dataset_no_images/noisy_images/ دانلود کنید. نام فایل خروجی باید با شناسه تصویر ارائه شده در mini-imagenet-annotations.json مطابقت داشته باشد. به عنوان مثال، اگر "image/id": "5922767e5677aef4"، تصویر دانلود شده باید مجموعه داده_no_images/noisy_images/5922767e5677aef4.jpg باشد. 4. در https://image-net.org/download-images ثبت نام کنید و ILSVRC2012_img_train.tar و ILSVRC2012_img_val.tar را دانلود کنید.
ساختار دایرکتوری حاصل ممکن است توسط TFDS پردازش شود:
- مجموعه داده_بدون_تصاویر/
- mini-imagenet/
- class_name.txt
- شکاف/
- blue_noise_nl_0.0
- blue_noise_nl_0.1
- ...
- red_noise_nl_0.0
- red_noise_nl_0.1
- ...
- clean_validation
- mini-imagenet-annotations.json
- ILSVRC2012_img_train.tar
- ILSVRC2012_img_val.tar
تصاویر_پر سر و صدا/
- 5922767e5677aef4.jpg
ذخیره خودکار ( اسناد ): خیر
ساختار ویژگی :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'is_clean': bool,
'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
شناسه | متن | رشته | ||
تصویر | تصویر | (هیچ، هیچ، 3) | uint8 | |
تمیز است | تانسور | بوول | ||
برچسب | ClassLabel | int64 |
کلیدهای نظارت شده (مشاهده
as_supervised
doc ):('image', 'label')
نقل قول :
@inproceedings{jiang2020beyond,
title={Beyond synthetic noise: Deep learning on controlled noisy labels},
author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
booktitle={International Conference on Machine Learning},
pages={4804--4815},
year={2020},
organization={PMLR}
}
controlled_noisy_web_labels/mini_imagenet_red (پیکربندی پیش فرض)
حجم مجموعه داده :
1.19 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'train_00' | 50000 |
'train_05' | 50000 |
'train_10' | 50000 |
'train_15' | 50000 |
'train_20' | 50000 |
'train_30' | 49,985 |
'train_40' | 50,010 |
'train_50' | 49,962 |
'train_60' | 50000 |
'train_80' | 50008 |
'validation' | 5000 |
- شکل ( tfds.show_examples ):
- مثالها ( tfds.as_dataframe ):
controlled_noisy_web_labels/mini_imagenet_blue
حجم مجموعه داده :
1.39 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'train_00' | 60000 |
'train_05' | 60000 |
'train_10' | 60000 |
'train_15' | 60000 |
'train_20' | 60000 |
'train_30' | 60000 |
'train_40' | 60000 |
'train_50' | 60000 |
'train_60' | 60000 |
'train_80' | 60000 |
'validation' | 5000 |
- شکل ( tfds.show_examples ):
- مثالها ( tfds.as_dataframe ):