- Description :
Kitti contient une suite de tâches de vision construites à l'aide d'une plateforme de conduite autonome. Le benchmark complet contient de nombreuses tâches telles que la stéréo, le flux optique, l'odométrie visuelle, etc. Cet ensemble de données contient l'ensemble de données de détection d'objets, y compris les images monoculaires et les cadres de délimitation. L'ensemble de données contient 7 481 images d'entraînement annotées avec des cadres de délimitation 3D. Une description complète des annotations peut être trouvée dans le fichier Lisez-moi du fichier Lisez-moi du kit de développement d'objets sur la page d'accueil de Kitti.
Documentation supplémentaire : Explorer sur les articles avec le code
Page d'accueil : http://www.cvlibs.net/datasets/kitti/
Code source :
tfds.datasets.kitti.Builder
Versions :
-
3.1.0
: Aucune note de version. -
3.2.0
: Devkit mis à jour. -
3.3.0
(par défaut) : ajout d'étiquettes pour la fonctionnalitéoccluded
.
-
Taille du téléchargement :
11.71 GiB
Taille de l'ensemble de données :
5.27 GiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 711 |
'train' | 6 347 |
'validation' | 423 |
- Structure des fonctionnalités :
FeaturesDict({
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/file_name': Text(shape=(), dtype=string),
'objects': Sequence({
'alpha': float32,
'bbox': BBoxFeature(shape=(4,), dtype=float32, description=2D bounding box of object in the image),
'dimensions': Tensor(shape=(3,), dtype=float32, description=3D object dimensions: height, width, length (in meters)),
'location': Tensor(shape=(3,), dtype=float32, description=3D object location x,y,z in camera coordinates (in meters)),
'occluded': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rotation_y': float32,
'truncated': float32,
'type': ClassLabel(shape=(), dtype=int64, num_classes=8),
}),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Type D | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
image | Image | (Aucun, Aucun, 3) | uint8 | |
image/nom_fichier | Texte | chaîne | ||
objets | Séquence | |||
objets/alpha | Tenseur | flotteur32 | Angle d'observation de l'objet, allant de [-pi..pi] | |
objets/bbox | Fonctionnalité BBox | (4,) | flotteur32 | Cadre de délimitation 2D de l'objet dans l'image |
objets/dimensions | Tenseur | (3,) | flotteur32 | Dimensions des objets 3D : hauteur, largeur, longueur (en mètres) |
objets/emplacement | Tenseur | (3,) | flotteur32 | Emplacement de l'objet 3D x,y,z en coordonnées de la caméra (en mètres) |
objets/occlus | Étiquette de classe | int64 | Entier (0,1,2,3) indiquant l'état d'occlusion : 0 = entièrement visible, 1 = partiellement obstrué 2 = largement obstrué, 3 = inconnu | |
objets/rotation_y | Tenseur | flotteur32 | Rotation autour de l'axe Y dans les coordonnées de la caméra [-pi..pi] | |
objets/tronqué | Tenseur | flotteur32 | Flottant de 0 (non tronqué) à 1 (tronqué), où tronqué fait référence à l'objet qui laisse les limites de l'image | |
objets/type | Étiquette de classe | int64 | Le type d'objet, par exemple « Voiture » ou « Van » |
Clés supervisées (Voir doc
as_supervised
) :None
Figure ( tfds.show_examples ) :
- Exemples ( tfds.as_dataframe ) :
- Citation :
@inproceedings{Geiger2012CVPR,
author = {Andreas Geiger and Philip Lenz and Raquel Urtasun},
title = {Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite},
booktitle = {Conference on Computer Vision and Pattern Recognition (CVPR)},
year = {2012}
}