キティ

  • 説明

Kitti には、自動運転プラットフォームを使用して構築された一連のビジョン タスクが含まれています。完全なベンチマークには、ステレオ、オプティカル フロー、ビジュアル オドメトリなどの多くのタスクが含まれています。このデータセットには、単眼画像や境界ボックスを含む物体検出データセットが含まれています。データセットには、3D 境界ボックスで注釈が付けられた 7481 個のトレーニング画像が含まれています。注釈の完全な説明は、Kitti ホームページにあるオブジェクト開発キットの Readme に記載されています。

スプリット
'test' 711
'train' 6,347
'validation' 423
  • 機能の構造:
FeaturesDict({
   
'image': Image(shape=(None, None, 3), dtype=uint8),
   
'image/file_name': Text(shape=(), dtype=string),
   
'objects': Sequence({
       
'alpha': float32,
       
'bbox': BBoxFeature(shape=(4,), dtype=float32, description=2D bounding box of object in the image),
       
'dimensions': Tensor(shape=(3,), dtype=float32, description=3D object dimensions: height, width, length (in meters)),
       
'location': Tensor(shape=(3,), dtype=float32, description=3D object location x,y,z in camera coordinates (in meters)),
       
'occluded': ClassLabel(shape=(), dtype=int64, num_classes=4),
       
'rotation_y': float32,
       
'truncated': float32,
       
'type': ClassLabel(shape=(), dtype=int64, num_classes=8),
   
}),
})
  • 機能ドキュメント:
特徴クラスDタイプ説明
特徴辞書
画像画像(なし、なし、3) uint8
画像/ファイル名文章
オブジェクト順序
オブジェクト/アルファテンソルfloat32オブジェクトの観察角度、範囲 [-pi..pi]
オブジェクト/BボックスBBox機能(4,) float32画像内のオブジェクトの 2D 境界ボックス
オブジェクト/寸法テンソル(3,) float32 3D オブジェクトの寸法: 高さ、幅、長さ (メートル単位)
オブジェクト/場所テンソル(3,) float32カメラ座標における 3D オブジェクトの位置 x、y、z (メートル単位)
オブジェクト/遮蔽物クラスラベルint64オクルージョン状態を示す整数 (0、1、2、3): 0 = 完全に表示、1 = 部分的にオクルージョン2 = 大幅にオクルージョン、3 = 不明
オブジェクト/回転_yテンソルfloat32カメラ座標における Y 軸周りの回転 ry [-pi..pi]
オブジェクト/切り捨てられたテンソルfloat32 0 (切り捨てられていない) から 1 (切り捨てられた) までの浮動小数点。切り捨てられたとは、画像の境界を残すオブジェクトを指します。
オブジェクト/タイプクラスラベルint64オブジェクトのタイプ (例: 「車」または「バン」)

視覚化

  • 引用
@inproceedings{Geiger2012CVPR,
  author
= {Andreas Geiger and Philip Lenz and Raquel Urtasun},
  title
= {Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite},
  booktitle
= {Conference on Computer Vision and Pattern Recognition (CVPR)},
  year
= {2012}
}