ควบคุม_noisy_web_labels

  • คำอธิบาย :

Controlled Noisey Web Labels คือคอลเล็กชันของ ~212,000 URL ไปยังรูปภาพ ซึ่งทุกรูปภาพได้รับการใส่คำอธิบายประกอบอย่างละเอียดโดยผู้เชี่ยวชาญด้านการติดฉลาก 3-5 คนโดย Google Cloud Data Labeling Service เมื่อใช้คำอธิบายประกอบเหล่านี้ ระบบจะสร้างเกณฑ์มาตรฐานแรกของการควบคุมสัญญาณรบกวนฉลากในโลกแห่งความเป็นจริงจากเว็บ

เรามีการกำหนดค่า Red Mini-ImageNet (เสียงรบกวนจากเว็บจริง) และ Blue Mini-ImageNet:

การกำหนดค่าแต่ละรายการประกอบด้วยตัวแปร 10 แบบโดยมีระดับเสียง 10 ระดับตั้งแต่ 0% ถึง 80% ชุดการตรวจสอบมีป้ายกำกับที่สะอาดและแชร์กับชุดการฝึกอบรมที่มีเสียงดังทั้งหมด ดังนั้นการกำหนดค่าแต่ละรายการจึงมีการแยกต่อไปนี้:

  • รถไฟ_00
  • รถไฟ_05
  • รถไฟ_10
  • รถไฟ_15
  • รถไฟ_20
  • รถไฟ_30
  • รถไฟ_40
  • รถไฟ_50
  • รถไฟ_60
  • รถไฟ_80
  • การตรวจสอบ

รายละเอียดสำหรับการสร้างชุดข้อมูลและการวิเคราะห์สามารถพบได้ในกระดาษ รูปภาพทั้งหมดถูกปรับขนาดเป็นความละเอียด 84x84

  • หน้าแรก : https://google.github.io/controlled-noisy-web-labels/index.html

  • รหัสที่มา : tfds.image_classification.controlled_noisy_web_labels.ControlledNoisyWebLabels

  • รุ่น :

    • 1.0.0 (ค่าเริ่มต้น): การเปิดตัวครั้งแรก
  • ขนาดการดาวน์โหลด : 1.83 MiB

  • คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน download_config.manual_dir (ค่าเริ่มต้นเป็น ~/tensorflow_datasets/downloads/manual/ ):
    ในการดาวน์โหลดข้อมูลนี้ด้วยตนเอง ผู้ใช้ต้องดำเนินการต่อไปนี้:

  1. ดาวน์โหลดตัวแยกและคำอธิบายประกอบ ที่นี่
  2. แยก dataset_no_images.zip ไปยัง dataset_no_images/
  3. ดาวน์โหลดรูปภาพทั้งหมดใน dataset_no_images/mini-imagenet-annotations.json ลงในโฟลเดอร์ใหม่ชื่อ dataset_no_images/noisy_images/ ชื่อไฟล์เอาต์พุตต้องตรงกับรหัสรูปภาพที่ระบุใน mini-imagenet-annotations.json ตัวอย่างเช่น หาก "image/id": "5922767e5677aef4" รูปภาพที่ดาวน์โหลดควรเป็น dataset_no_images/noisy_images/5922767e5677aef4.jpg 4.ลงทะเบียนที่ https://image-net.org/download-images และดาวน์โหลด ILSVRC2012_img_train.tar และ ILSVRC2012_img_val.tar

โครงสร้างไดเร็กทอรีที่เป็นผลลัพธ์อาจถูกประมวลผลโดย TFDS:

  • ชุดข้อมูล_no_images/
    • มินิอิมเมจเน็ต/
    • class_name.txt
    • แยก/
      • blue_noise_nl_0.0
      • blue_noise_nl_0.1
      • ...
      • red_noise_nl_0.0
      • red_noise_nl_0.1
      • ...
      • clean_validation
    • mini-imagenet-annotations.json
  • ILSVRC2012_img_train.tar
  • ILSVRC2012_img_val.tar
  • noisy_images/

    • 5922767e5677aef4.jpg
  • แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่

  • โครงสร้างคุณลักษณะ :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'is_clean': bool,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
รหัส ข้อความ สตริง
ภาพ ภาพ (ไม่มี, ไม่มี, 3) uint8
is_สะอาด เทนเซอร์ บูล
ฉลาก ป้ายกำกับคลาส int64
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('image', 'label')

  • การอ้างอิง :

@inproceedings{jiang2020beyond,
  title={Beyond synthetic noise: Deep learning on controlled noisy labels},
  author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
  booktitle={International Conference on Machine Learning},
  pages={4804--4815},
  year={2020},
  organization={PMLR}
}

control_noisy_web_labels/mini_imagenet_red (การกำหนดค่าเริ่มต้น)

  • ขนาดชุดข้อมูล : 1.19 GiB

  • แยก :

แยก ตัวอย่าง
'train_00' 50,000
'train_05' 50,000
'train_10' 50,000
'train_15' 50,000
'train_20' 50,000
'train_30' 49,985
'train_40' 50,010
'train_50' 49,962
'train_60' 50,000
'train_80' 50,008
'validation' 5,000

การสร้างภาพ

control_noisy_web_labels/mini_imagenet_blue

  • ขนาดชุดข้อมูล : 1.39 GiB

  • แยก :

แยก ตัวอย่าง
'train_00' 60,000
'train_05' 60,000
'train_10' 60,000
'train_15' 60,000
'train_20' 60,000
'train_30' 60,000
'train_40' 60,000
'train_50' 60,000
'train_60' 60,000
'train_80' 60,000
'validation' 5,000

การสร้างภาพ