สะบัด

จากกระดาษ: เรารวบรวมชุดข้อมูลภาพ 5003 ภาพโดยอัตโนมัติจากภาพยนตร์ฮอลลีวูดยอดนิยม ภาพเหล่านี้ได้มาจากการเรียกใช้เครื่องตรวจจับบุคคลที่ล้ำสมัยในทุกๆ เฟรมที่สิบของภาพยนตร์ 30 เรื่อง จากนั้นผู้คนที่ตรวจพบด้วยความมั่นใจสูง (ผู้สมัครประมาณ 20,000 คน) จะถูกส่งไปยังตลาดการจัดหาผู้คนจำนวนมากของ Amazon Mechanical Turk เพื่อรับการติดฉลากความจริง ภาพแต่ละภาพได้รับการอธิบายประกอบโดยชาวเติร์ก 5 คนในราคา 0.01 เหรียญสหรัฐฯ ต่อภาพเพื่อระบุข้อต่อส่วนบนของร่างกาย 10 ข้อ การติดฉลากค่ามัธยฐานจากห้าภาพถูกถ่ายในแต่ละภาพเพื่อให้มีคำอธิบายประกอบที่ผิดเพี้ยนไป สุดท้าย รูปภาพถูกปฏิเสธโดยเราเองหากบุคคลนั้นถูกบดบังหรือไม่มีส่วนหน้าอย่างรุนแรง เรากันข้อมูลไว้ 20% (1,016 ภาพ) สำหรับการทดสอบ

แยก ตัวอย่าง
'test' 1,016
'train' 3,987
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'currframe': float64,
    'image': Image(shape=(480, 720, 3), dtype=uint8),
    'moviename': Text(shape=(), dtype=string),
    'poselet_hit_idx': Sequence(uint16),
    'torsobox': BBoxFeature(shape=(4,), dtype=float32),
    'xcoords': Sequence(float64),
    'ycoords': Sequence(float64),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
เคอร์เฟรม เทนเซอร์ float64
ภาพ ภาพ (480, 720, 3) uint8
ชื่อหนัง ข้อความ สตริง
poselet_hit_idx ลำดับ (เทนเซอร์) (ไม่มี,) uint16
กล่องลำตัว คุณสมบัติ BBox (4,) ลอย32
พิกัด ลำดับ (เทนเซอร์) (ไม่มี,) float64
ใช่ ลำดับ (เทนเซอร์) (ไม่มี,) float64
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): None

  • การอ้างอิง :

@inproceedings{modec13,
    title={MODEC: Multimodal Decomposable Models for Human Pose Estimation},
    author={Sapp, Benjamin and Taskar, Ben},
    booktitle={In Proc. CVPR},
    year={2013},
  }

flic/small (การกำหนดค่าเริ่มต้น)

  • คำอธิบาย การกำหนดค่า : ใช้ 5003 ตัวอย่างที่ใช้ในกระดาษ CVPR13 MODEC

  • ขนาดการดาวน์โหลด : 286.35 MiB

  • รูป ( tfds.show_examples ):

การสร้างภาพ

ฟิค/เต็ม

  • คำอธิบาย การกำหนดค่า : ใช้ตัวอย่าง 20928 ตัวอย่าง ซึ่งเป็น superset ของ FLIC ที่ประกอบด้วยตัวอย่างที่ยากขึ้น

  • ขนาดการดาวน์โหลด : 1.10 GiB

  • รูป ( tfds.show_examples ):

การสร้างภาพ