- คำอธิบาย :
Controlled Noisey Web Labels คือคอลเล็กชันของ ~212,000 URL ไปยังรูปภาพ ซึ่งทุกรูปภาพได้รับการใส่คำอธิบายประกอบอย่างละเอียดโดยผู้เชี่ยวชาญด้านการติดฉลาก 3-5 คนโดย Google Cloud Data Labeling Service เมื่อใช้คำอธิบายประกอบเหล่านี้ ระบบจะสร้างเกณฑ์มาตรฐานแรกของการควบคุมสัญญาณรบกวนฉลากในโลกแห่งความเป็นจริงจากเว็บ
เรามีการกำหนดค่า Red Mini-ImageNet (เสียงรบกวนจากเว็บจริง) และ Blue Mini-ImageNet:
การกำหนดค่าแต่ละรายการประกอบด้วยตัวแปร 10 แบบโดยมีระดับเสียง 10 ระดับตั้งแต่ 0% ถึง 80% ชุดการตรวจสอบมีป้ายกำกับที่สะอาดและแชร์กับชุดการฝึกอบรมที่มีเสียงดังทั้งหมด ดังนั้นการกำหนดค่าแต่ละรายการจึงมีการแยกต่อไปนี้:
- รถไฟ_00
- รถไฟ_05
- รถไฟ_10
- รถไฟ_15
- รถไฟ_20
- รถไฟ_30
- รถไฟ_40
- รถไฟ_50
- รถไฟ_60
- รถไฟ_80
- การตรวจสอบ
รายละเอียดสำหรับการสร้างชุดข้อมูลและการวิเคราะห์สามารถพบได้ในกระดาษ รูปภาพทั้งหมดถูกปรับขนาดเป็นความละเอียด 84x84
หน้าแรก : https://google.github.io/controlled-noisy-web-labels/index.html
รหัสที่มา :
tfds.image_classification.controlled_noisy_web_labels.ControlledNoisyWebLabels
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): การเปิดตัวครั้งแรก
-
ขนาดการดาวน์โหลด :
1.83 MiB
คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน
download_config.manual_dir
(ค่าเริ่มต้นเป็น~/tensorflow_datasets/downloads/manual/
):
ในการดาวน์โหลดข้อมูลนี้ด้วยตนเอง ผู้ใช้ต้องดำเนินการต่อไปนี้:
- ดาวน์โหลดตัวแยกและคำอธิบายประกอบ ที่นี่
- แยก dataset_no_images.zip ไปยัง dataset_no_images/
- ดาวน์โหลดรูปภาพทั้งหมดใน dataset_no_images/mini-imagenet-annotations.json ลงในโฟลเดอร์ใหม่ชื่อ dataset_no_images/noisy_images/ ชื่อไฟล์เอาต์พุตต้องตรงกับรหัสรูปภาพที่ระบุใน mini-imagenet-annotations.json ตัวอย่างเช่น หาก "image/id": "5922767e5677aef4" รูปภาพที่ดาวน์โหลดควรเป็น dataset_no_images/noisy_images/5922767e5677aef4.jpg 4.ลงทะเบียนที่ https://image-net.org/download-images และดาวน์โหลด ILSVRC2012_img_train.tar และ ILSVRC2012_img_val.tar
โครงสร้างไดเร็กทอรีที่เป็นผลลัพธ์อาจถูกประมวลผลโดย TFDS:
- ชุดข้อมูล_no_images/
- มินิอิมเมจเน็ต/
- class_name.txt
- แยก/
- blue_noise_nl_0.0
- blue_noise_nl_0.1
- ...
- red_noise_nl_0.0
- red_noise_nl_0.1
- ...
- clean_validation
- mini-imagenet-annotations.json
- ILSVRC2012_img_train.tar
- ILSVRC2012_img_val.tar
noisy_images/
- 5922767e5677aef4.jpg
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
โครงสร้างคุณลักษณะ :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'is_clean': bool,
'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
รหัส | ข้อความ | สตริง | ||
ภาพ | ภาพ | (ไม่มี, ไม่มี, 3) | uint8 | |
is_สะอาด | เทนเซอร์ | บูล | ||
ฉลาก | ป้ายกำกับคลาส | int64 |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):('image', 'label')
การอ้างอิง :
@inproceedings{jiang2020beyond,
title={Beyond synthetic noise: Deep learning on controlled noisy labels},
author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
booktitle={International Conference on Machine Learning},
pages={4804--4815},
year={2020},
organization={PMLR}
}
control_noisy_web_labels/mini_imagenet_red (การกำหนดค่าเริ่มต้น)
ขนาดชุดข้อมูล :
1.19 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'train_00' | 50,000 |
'train_05' | 50,000 |
'train_10' | 50,000 |
'train_15' | 50,000 |
'train_20' | 50,000 |
'train_30' | 49,985 |
'train_40' | 50,010 |
'train_50' | 49,962 |
'train_60' | 50,000 |
'train_80' | 50,008 |
'validation' | 5,000 |
- รูป ( tfds.show_examples ):
- ตัวอย่าง ( tfds.as_dataframe ):
control_noisy_web_labels/mini_imagenet_blue
ขนาดชุดข้อมูล :
1.39 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'train_00' | 60,000 |
'train_05' | 60,000 |
'train_10' | 60,000 |
'train_15' | 60,000 |
'train_20' | 60,000 |
'train_30' | 60,000 |
'train_40' | 60,000 |
'train_50' | 60,000 |
'train_60' | 60,000 |
'train_80' | 60,000 |
'validation' | 5,000 |
- รูป ( tfds.show_examples ):
- ตัวอย่าง ( tfds.as_dataframe ):