키티

Kitti에는 자율 주행 플랫폼을 사용하여 구축된 일련의 비전 작업이 포함되어 있습니다. 전체 벤치마크에는 스테레오, 광학 흐름, 시각적 주행 거리 측정 등과 같은 많은 작업이 포함됩니다. 이 데이터 세트에는 단안 이미지 및 경계 상자를 포함한 물체 감지 데이터 세트가 포함됩니다. 데이터 세트에는 3D 경계 상자로 주석이 달린 7481개의 훈련 이미지가 포함되어 있습니다. 주석에 대한 전체 설명은 Kitti 홈페이지의 개체 개발 키트 readme의 readme에서 찾을 수 있습니다.

나뉘다
'test' 711
'train' 6,347
'validation' 423
  • 기능 구조 :
FeaturesDict({
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/file_name': Text(shape=(), dtype=string),
    'objects': Sequence({
        'alpha': float32,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'dimensions': Tensor(shape=(3,), dtype=float32),
        'location': Tensor(shape=(3,), dtype=float32),
        'occluded': ClassLabel(shape=(), dtype=int64, num_classes=4),
        'rotation_y': float32,
        'truncated': float32,
        'type': ClassLabel(shape=(), dtype=int64, num_classes=8),
    }),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
영상 영상 (없음, 없음, 3) uint8
이미지/파일_이름 텍스트
사물 순서
개체/알파 텐서 float32 물체의 관찰 각도, 범위 [-pi..pi]
개체/bbox BBox기능 (4,) float32 이미지에서 개체의 2D 경계 상자
객체/치수 텐서 (삼,) float32 3D 개체 치수: 높이, 너비, 길이(미터 단위)
물체/위치 텐서 (삼,) float32 카메라 좌표의 3D 개체 위치 x,y,z(미터)
객체/폐쇄 클래스 레이블 int64 폐색 상태를 나타내는 정수(0,1,2,3): 0 = 완전히 보임, 1 = 부분적으로 가려짐2 = 대부분 가려짐, 3 = 알 수 없음
개체/rotation_y 텐서 float32 카메라 좌표에서 Y축 회전 [-pi..pi]
개체/잘린 텐서 float32 0(잘리지 않음)에서 1(잘림)까지 플로트, 여기서 잘림은 이미지 경계를 벗어나는 객체를 나타냅니다.
개체/유형 클래스 레이블 int64 개체 유형(예: 'Car' 또는 'Van')

심상

  • 인용 :
@inproceedings{Geiger2012CVPR,
  author = {Andreas Geiger and Philip Lenz and Raquel Urtasun},
  title = {Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite},
  booktitle = {Conference on Computer Vision and Pattern Recognition (CVPR)},
  year = {2012}
}