キティ

Kitti には、自動運転プラットフォームを使用して構築された一連のビジョン タスクが含まれています。完全なベンチマークには、ステレオ、オプティカル フロー、ビジュアル オドメトリなどの多くのタスクが含まれています。このデータセットには、単眼画像やバウンディング ボックスなどのオブジェクト検出データセットが含まれています。データセットには、3D 境界ボックスで注釈が付けられた 7481 のトレーニング画像が含まれています。注釈の完全な説明は、Kitti ホームページのオブジェクト開発キットの readme に記載されています。

スプリット
'test' 711
'train' 6,347
'validation' 423
  • 機能構造:
FeaturesDict({
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/file_name': Text(shape=(), dtype=string),
    'objects': Sequence({
        'alpha': float32,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'dimensions': Tensor(shape=(3,), dtype=float32),
        'location': Tensor(shape=(3,), dtype=float32),
        'occluded': ClassLabel(shape=(), dtype=int64, num_classes=4),
        'rotation_y': float32,
        'truncated': float32,
        'type': ClassLabel(shape=(), dtype=int64, num_classes=8),
    }),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
画像画像(なし、なし、3) uint8
画像/ファイル名文章ストリング
オブジェクト順序
オブジェクト/アルファテンソルfloat32物体の観察角度、範囲 [-pi..pi]
オブジェクト/bbox BBoxFeature (4) float32画像内のオブジェクトの 2D バウンディング ボックス
オブジェクト/寸法テンソル(3) float32 3D オブジェクトの寸法: 高さ、幅、長さ (メートル単位)
オブジェクト/場所テンソル(3) float32カメラ座標での 3D オブジェクトの位置 x、y、z (メートル単位)
オブジェクト/オクルードクラスラベルint64オクルージョンの状態を示す整数 (0,1,2,3): 0 = 完全に見える、1 = 部分的にオクルージョン2 = 大部分がオクルージョン、3 = 不明
オブジェクト/rotation_yテンソルfloat32カメラ座標の Y 軸周りの回転 ry [-pi..pi]
オブジェクト/切り捨てテンソルfloat32 0 (切り捨てられていない) から 1 (切り捨てられた) までの浮動小数点数。
オブジェクト/タイプクラスラベルint64オブジェクトのタイプ (「車」や「バン」など)

視覚化

  • 引用
@inproceedings{Geiger2012CVPR,
  author = {Andreas Geiger and Philip Lenz and Raquel Urtasun},
  title = {Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite},
  booktitle = {Conference on Computer Vision and Pattern Recognition (CVPR)},
  year = {2012}
}