imagenet2012

ILSVRC 2012 หรือที่เรียกกันทั่วไปว่า 'ImageNet' เป็นชุดข้อมูลรูปภาพที่จัดตามลำดับชั้นของ WordNet แต่ละแนวคิดที่มีความหมายใน WordNet อาจอธิบายด้วยคำหรือวลีคำหลายคำ เรียกว่า "ชุดคำพ้องความหมาย" หรือ "ชุดคำพ้องความหมาย" มีมากกว่า 100,000 synsets ใน WordNet ส่วนใหญ่เป็นคำนาม (80,000+) ใน ImageNet เราตั้งเป้าที่จะจัดเตรียมรูปภาพโดยเฉลี่ย 1,000 รูปเพื่อแสดงแต่ละชุด รูปภาพของแต่ละแนวคิดได้รับการควบคุมคุณภาพและมีคำอธิบายประกอบโดยมนุษย์ ในการดำเนินการเสร็จสิ้น เราหวังว่า ImageNet จะนำเสนอภาพที่จัดเรียงอย่างสะอาดหมดจดนับสิบล้านภาพสำหรับแนวคิดส่วนใหญ่ในลำดับชั้นของ WordNet

การแบ่งการทดสอบมีรูปภาพ 100K แต่ไม่มีป้ายกำกับเนื่องจากไม่มีป้ายกำกับเผยแพร่สู่สาธารณะ เราให้การสนับสนุนการทดสอบแยกจากปี 2012 ด้วยแพตช์ย่อยที่เผยแพร่ในวันที่ 10 ตุลาคม 2019 ในการดาวน์โหลดข้อมูลนี้ด้วยตนเอง ผู้ใช้ต้องดำเนินการต่อไปนี้:

  1. ดาวน์โหลดการทดสอบแยกปี 2012 ที่นี่
  2. ดาวน์โหลดแพทช์ 10 ตุลาคม 2019 มีลิงก์ Google Drive ไปยังแพตช์ที่มีให้ในหน้าเดียวกัน
  3. รวม tar-balls สองลูก เขียนทับภาพใด ๆ ในไฟล์เก็บถาวรดั้งเดิมด้วยภาพจากแพทช์ด้วยตนเอง ตามคำแนะนำบน image-net.org ขั้นตอนนี้จะเขียนทับภาพเพียงไม่กี่ภาพ

จากนั้น tar-ball ที่เป็นผลลัพธ์อาจถูกประมวลผลโดย TFDS

ในการประเมินความถูกต้องของโมเดลในการแบ่งการทดสอบ ImageNet จะต้องดำเนินการอนุมานกับรูปภาพทั้งหมดในการแยก ส่งออกผลลัพธ์เหล่านั้นไปยังไฟล์ข้อความที่ต้องอัปโหลดไปยังเซิร์ฟเวอร์การประเมิน ImageNet ผู้ดูแลเซิร์ฟเวอร์การประเมิน ImageNet อนุญาตให้ผู้ใช้หนึ่งรายส่งได้สูงสุด 2 รายการต่อสัปดาห์ เพื่อป้องกันการใช้งานมากเกินไป

ในการประเมินความแม่นยำของการทดสอบแยก ก่อนอื่นคุณต้องสร้างบัญชีที่ image-net.org บัญชีนี้ต้องได้รับการอนุมัติจากผู้ดูแลไซต์ หลังจากสร้างบัญชีแล้ว ผู้ใช้สามารถส่งผลลัพธ์ไปยังเซิร์ฟเวอร์ทดสอบได้ที่ https://image-net.org/challenges/LSVRC/eval_server.php การส่งประกอบด้วยไฟล์ข้อความ ASCII หลายไฟล์ที่เกี่ยวข้องกับงานหลายอย่าง งานที่น่าสนใจคือ "การส่งการจำแนกประเภท (ข้อผิดพลาด 5 อันดับแรกของ cls)" ตัวอย่างของไฟล์ข้อความที่ส่งออกมีลักษณะดังต่อไปนี้:

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

รูปแบบการส่งออกได้รับการอธิบายอย่างครบถ้วนใน "readme.txt" ภายในชุดพัฒนา 2013 ที่มีให้ที่นี่: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz โปรดดูหัวข้อ "3.3 CLS-LOC รูปแบบการส่ง". โดยสังเขป รูปแบบของไฟล์ข้อความคือ 100,000 บรรทัดที่สอดคล้องกับแต่ละภาพในการทดสอบแยก จำนวนเต็มแต่ละบรรทัดสอดคล้องกับการคาดคะเน 5 อันดับสูงสุดสำหรับแต่ละภาพทดสอบ จำนวนเต็มได้รับการจัดทำดัชนี 1 รายการที่สอดคล้องกับหมายเลขบรรทัดในไฟล์ป้ายกำกับที่เกี่ยวข้อง ดู labels.txt

  • เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส

  • หน้าแรก : https://image-net.org/

  • รหัสที่มา : tfds.datasets.imagenet2012.Builder

  • รุ่น :

    • 2.0.0 : แก้ไขป้ายกำกับการตรวจสอบความถูกต้อง
    • 2.0.1 : แก้ไขการเข้ารหัส ไม่มีการเปลี่ยนแปลงจากมุมมองของผู้ใช้
    • 3.0.0 : แก้ไข colorization บน ~12 ภาพ (CMYK -> RGB) แก้ไขรูปแบบเพื่อความสอดคล้องกัน (แปลงภาพ png เดียวเป็น Jpeg) รุ่นที่เร็วกว่าการอ่านโดยตรงจากไฟล์เก็บถาวร

    • 4.0.0 : (ยังไม่ได้เผยแพร่)

    • 5.0.0 : API แยกใหม่ ( https://tensorflow.org/datasets/splits )

    • 5.1.0 (ค่าเริ่มต้น): เพิ่มการแบ่งการทดสอบ

  • ขนาดการดาวน์โหลด : Unknown size

  • ขนาดชุดข้อมูล : 155.84 GiB

  • คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน download_config.manual_dir (ค่าเริ่มต้นเป็น ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir ควรมีสองไฟล์: ILSVRC2012_img_train.tar และ ILSVRC2012_img_val.tar คุณต้องลงทะเบียนบน https://image-net.org/download-images เพื่อรับลิงก์สำหรับดาวน์โหลดชุดข้อมูล

  • แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่

  • แยก :

แยก ตัวอย่าง
'test' 100,000
'train' 1,281,167
'validation' 50,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ชื่อไฟล์ ข้อความ สตริง
ภาพ ภาพ (ไม่มี, ไม่มี, 3) uint8
ฉลาก ป้ายกำกับคลาส int64

การสร้างภาพ

  • การอ้างอิง :
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}