เกรฟ

  • คำอธิบาย :

ชุดข้อมูล Google RefExp คือชุดของคำอธิบายที่เป็นข้อความของวัตถุในรูปภาพซึ่งสร้างขึ้นจากชุดข้อมูล MS-COCO ที่เผยแพร่ต่อสาธารณะ ในขณะที่คำบรรยายภาพใน MS-COCO นำไปใช้กับภาพทั้งหมด ชุดข้อมูลนี้เน้นที่คำอธิบายข้อความที่ช่วยให้สามารถระบุวัตถุหรือภูมิภาคเดียวภายในภาพได้อย่างไม่ซ้ำกัน ดูรายละเอียดเพิ่มเติมในเอกสารนี้: การสร้างและความเข้าใจคำอธิบายวัตถุที่ไม่คลุมเครือ

  • เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส

  • หน้าแรก : https://github.com/mjhucla/Google_Refexp_toolbox

  • รหัสที่มา : tfds.vision_language.gref.Gref

  • รุ่น :

    • 1.0.0 (ค่าเริ่มต้น): การเปิดตัวครั้งแรก
  • ขนาดการดาวน์โหลด : Unknown size

  • ขนาดชุดข้อมูล : 4.60 GiB

  • คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน download_config.manual_dir (ค่าเริ่มต้นเป็น ~/tensorflow_datasets/downloads/manual/ ):
    ทำตามคำแนะนำที่ https://github.com/mjhucla/Google_Refexp_toolbox เพื่อดาวน์โหลดและประมวลผลข้อมูลล่วงหน้าในรูปแบบที่สอดคล้องกับ COCO ไดเร็กทอรีประกอบด้วย 2 ไฟล์และหนึ่งโฟลเดอร์:

  • google_refexp_train_201511_coco_aligned_catg.json

  • google_refexp_val_201511_coco_aligned_catg.json

  • coco_train2014/

โฟลเดอร์ coco_train2014 มีรูปภาพการฝึกอบรม COCO 2014 ทั้งหมด

แยก ตัวอย่าง
'train' 24,698
'validation' 4,650
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
   
'image': Image(shape=(None, None, 3), dtype=uint8),
   
'image/id': int64,
   
'objects': Sequence({
       
'area': int64,
       
'bbox': BBoxFeature(shape=(4,), dtype=float32),
       
'id': int64,
       
'label': int64,
       
'label_name': ClassLabel(shape=(), dtype=int64, num_classes=80),
       
'refexp': Sequence({
           
'raw': Text(shape=(), dtype=string),
           
'referent': Text(shape=(), dtype=string),
           
'refexp_id': int64,
           
'tokens': Sequence(Text(shape=(), dtype=string)),
       
}),
   
}),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ภาพ ภาพ (ไม่มี, ไม่มี, 3) uint8
รูปภาพ/รหัส เทนเซอร์ int64
วัตถุ ลำดับ
วัตถุ/พื้นที่ เทนเซอร์ int64
วัตถุ/bbox คุณสมบัติ BBox (4,) ลอย32
วัตถุ/รหัส เทนเซอร์ int64
วัตถุ/ฉลาก เทนเซอร์ int64
วัตถุ/label_name ป้ายกำกับคลาส int64
วัตถุ/refexp ลำดับ
วัตถุ / refexp / ดิบ ข้อความ สตริง
วัตถุ / refexp / อ้างอิง ข้อความ สตริง
วัตถุ/refexp/refexp_id เทนเซอร์ int64
วัตถุ/refexp/โทเค็น ลำดับ (ข้อความ) (ไม่มี,) สตริง

การสร้างภาพ

  • การอ้างอิง :
@inproceedings{mao2016generation,
  title
={Generation and Comprehension of Unambiguous Object Descriptions},
  author
={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle
={CVPR},
  year
={2016}
}