নিয়ন্ত্রিত_কোলাহলপূর্ণ_ওয়েব_লেবেল

  • বর্ণনা :

নিয়ন্ত্রিত নয়েজি ওয়েব লেবেল হল ~212,000টি ইউআরএল-এর একটি সংকলন যাতে প্রতিটি ছবি Google ক্লাউড ডেটা লেবেলিং পরিষেবা দ্বারা 3-5 জন লেবেলিং পেশাদারদের দ্বারা সতর্কতার সাথে টীকা করা হয়৷ এই টীকাগুলি ব্যবহার করে, এটি ওয়েব থেকে নিয়ন্ত্রিত রিয়েল-ওয়ার্ল্ড লেবেল শব্দের প্রথম বেঞ্চমার্ক স্থাপন করে৷

আমরা Red Mini-ImageNet (real-world web noise) এবং Blue Mini-ImageNet কনফিগারেশন প্রদান করি: - controlled_noisy_web_labels/mini_imagenet_red - controlled_noisy_web_labels/mini_imagenet_blue

প্রতিটি কনফিগারেশনে 0% থেকে 80% পর্যন্ত দশটি নয়েজ-লেভেল p সহ দশটি রূপ রয়েছে। বৈধতা সেটে পরিষ্কার লেবেল রয়েছে এবং সমস্ত শোরগোল প্রশিক্ষণ সেট জুড়ে ভাগ করা হয়৷ অতএব, প্রতিটি কনফিগারে নিম্নলিখিত বিভাজন রয়েছে:

  • ট্রেন_০০
  • ট্রেন_05
  • ট্রেন_১০
  • ট্রেন_15
  • ট্রেন_২০
  • ট্রেন_30
  • ট্রেন_৪০
  • ট্রেন_৫০
  • ট্রেন_60
  • ট্রেন_80
  • বৈধতা

ডেটাসেট নির্মাণ এবং বিশ্লেষণের বিশদ বিবরণ কাগজে পাওয়া যাবে। সমস্ত চিত্রের আকার 84x84 রেজোলিউশনে পরিবর্তন করা হয়েছে।

  • হোমপেজ : https://google.github.io/controlled-noisy-web-labels/index.html

  • উত্স কোড : tfds.image_classification.controlled_noisy_web_labels.ControlledNoisyWebLabels

  • সংস্করণ :

    • 1.0.0 (ডিফল্ট): প্রাথমিক প্রকাশ।
  • ডাউনলোড আকার : 1.83 MiB

  • ম্যানুয়াল ডাউনলোডের নির্দেশাবলী : এই ডেটাসেটের জন্য আপনাকে download_config.manual_dir এ ম্যানুয়ালি উৎস ডেটা ডাউনলোড করতে হবে ( ~/tensorflow_datasets/downloads/manual/ এ ডিফল্ট):
    ম্যানুয়ালি এই ডেটা ডাউনলোড করার জন্য, একজন ব্যবহারকারীকে নিম্নলিখিত ক্রিয়াকলাপগুলি সম্পাদন করতে হবে:

  1. এখানে বিভক্ত এবং টীকা ডাউনলোড করুন
  2. dataset_no_images.zip to dataset_no_images/ এক্সট্র্যাক্ট করুন।
  3. dataset_no_images/mini-imagenet-annotations.json-এ সমস্ত ছবি ডাউনলোড করুন dataset_no_images/noisy_images/ নামে একটি নতুন ফোল্ডারে। আউটপুট ফাইলের নামটি mini-imagenet-annotations.json-এ দেওয়া ইমেজ আইডির সাথে সম্মত হতে হবে। উদাহরণস্বরূপ, যদি "image/id": "5922767e5677aef4", তাহলে ডাউনলোড করা ছবিটি dataset_no_images/noisy_images/5922767e5677aef4.jpg হওয়া উচিত। 4. https://image-net.org/download-images- এ নিবন্ধন করুন এবং ILSVRC2012_img_train.tar এবং ILSVRC2012_img_val.tar ডাউনলোড করুন।

ফলস্বরূপ ডিরেক্টরি গঠন তারপর TFDS দ্বারা প্রক্রিয়া করা হতে পারে:

  • dataset_no_images/
    • mini-imagenet/
    • class_name.txt
    • বিভক্ত/
      • blue_noise_nl_0.0
      • blue_noise_nl_0.1
      • ...
      • red_noise_nl_0.0
      • red_noise_nl_0.1
      • ...
      • পরিষ্কার_প্রমাণ
    • mini-imagenet-annotations.json
  • ILSVRC2012_img_train.tar
  • ILSVRC2012_img_val.tar
  • শোরগোল_ছবি/

    • 5922767e5677aef4.jpg
  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বৈশিষ্ট্য গঠন :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'is_clean': bool,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
আইডি পাঠ্য স্ট্রিং
ইমেজ ছবি (কোনটিই নয়, 3) uint8
পরিস্কার টেনসর bool
লেবেল ক্লাসলেবেল int64
  • তত্ত্বাবধান করা কী (দেখুন as_supervised doc ): ('image', 'label')

  • উদ্ধৃতি :

@inproceedings{jiang2020beyond,
  title={Beyond synthetic noise: Deep learning on controlled noisy labels},
  author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
  booktitle={International Conference on Machine Learning},
  pages={4804--4815},
  year={2020},
  organization={PMLR}
}

controlled_noisy_web_labels/mini_imagenet_red (ডিফল্ট কনফিগারেশন)

  • ডেটাসেটের আকার : 1.19 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'train_00' 50,000
'train_05' 50,000
'train_10' 50,000
'train_15' 50,000
'train_20' 50,000
'train_30' 49,985
'train_40' 50,010
'train_50' 49,962
'train_60' 50,000
'train_80' 50,008
'validation' 5,000

ভিজ্যুয়ালাইজেশন

controlled_noisy_web_labels/mini_imagenet_blue

  • ডেটাসেটের আকার : 1.39 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'train_00' 60,000
'train_05' 60,000
'train_10' 60,000
'train_15' 60,000
'train_20' 60,000
'train_30' 60,000
'train_40' 60,000
'train_50' 60,000
'train_60' 60,000
'train_80' 60,000
'validation' 5,000

ভিজ্যুয়ালাইজেশন