- Descrição :
Kitti contém um conjunto de tarefas de visão construídas usando uma plataforma de direção autônoma. O benchmark completo contém muitas tarefas, como estéreo, fluxo óptico, odometria visual, etc. Este conjunto de dados contém o conjunto de dados de detecção de objetos, incluindo as imagens monoculares e caixas delimitadoras. O conjunto de dados contém 7.481 imagens de treinamento anotadas com caixas delimitadoras 3D. Uma descrição completa das anotações pode ser encontrada no leia-me do kit de desenvolvimento de objetos na página inicial do Kitti.
Documentação adicional : Explore artigos com código
Página inicial : http://www.cvlibs.net/datasets/kitti/
Código fonte :
tfds.datasets.kitti.Builder
Versões :
-
3.1.0
: Sem notas de lançamento. -
3.2.0
: Devkit atualizado. -
3.3.0
(padrão): Adicionados rótulos para o recursooccluded
.
-
Tamanho do download :
11.71 GiB
Tamanho do conjunto de dados :
5.27 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'test' | 711 |
'train' | 6.347 |
'validation' | 423 |
- Estrutura de recursos :
FeaturesDict({
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/file_name': Text(shape=(), dtype=string),
'objects': Sequence({
'alpha': float32,
'bbox': BBoxFeature(shape=(4,), dtype=float32, description=2D bounding box of object in the image),
'dimensions': Tensor(shape=(3,), dtype=float32, description=3D object dimensions: height, width, length (in meters)),
'location': Tensor(shape=(3,), dtype=float32, description=3D object location x,y,z in camera coordinates (in meters)),
'occluded': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rotation_y': float32,
'truncated': float32,
'type': ClassLabel(shape=(), dtype=int64, num_classes=8),
}),
})
- Documentação de recursos :
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
imagem | Imagem | (Nenhum, Nenhum, 3) | uint8 | |
imagem/nome_do_arquivo | Texto | corda | ||
objetos | Sequência | |||
objetos/alfa | Tensor | float32 | Ângulo de observação do objeto, variando [-pi..pi] | |
objetos/bbox | BBoxFeature | (4,) | float32 | Caixa delimitadora 2D do objeto na imagem |
objetos/dimensões | Tensor | (3,) | float32 | Dimensões do objeto 3D: altura, largura, comprimento (em metros) |
objetos/localização | Tensor | (3,) | float32 | Localização do objeto 3D x,y,z nas coordenadas da câmera (em metros) |
objetos / ocluídos | ClassLabel | int64 | Inteiro (0,1,2,3) indicando estado de oclusão: 0 = totalmente visível, 1 = parcialmente ocluído2 = amplamente ocluído, 3 = desconhecido | |
objetos/rotação_y | Tensor | float32 | Rotação em torno do eixo Y nas coordenadas da câmera [-pi..pi] | |
objetos/truncados | Tensor | float32 | Flutua de 0 (não truncado) a 1 (truncado), onde truncado se refere ao objeto que sai dos limites da imagem | |
objetos/tipo | ClassLabel | int64 | O tipo de objeto, por exemplo, 'Carro' ou 'Van' |
Chaves supervisionadas (consulte o documento
as_supervised
):None
Figura ( tfds.show_examples ):
- Exemplos ( tfds.as_dataframe ):
- Citação :
@inproceedings{Geiger2012CVPR,
author = {Andreas Geiger and Philip Lenz and Raquel Urtasun},
title = {Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite},
booktitle = {Conference on Computer Vision and Pattern Recognition (CVPR)},
year = {2012}
}