- Descripción :
El conjunto de datos TAO es un gran conjunto de datos de detección de objetos en vídeo que consta de 2907 vídeos de alta resolución y 833 categorías de objetos. Tenga en cuenta que este conjunto de datos requiere al menos 300 GB de espacio libre para almacenarse.
Documentación adicional : Explorar en artículos con código
Página de inicio : https://taodataset.org/
Código fuente :
tfds.video.tao.Tao
Versiones :
-
1.1.0
(predeterminado) : división de prueba agregada.
-
Tamaño de descarga :
Unknown size
Tamaño del conjunto de datos :
Unknown size
Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en
download_config.manual_dir
(el valor predeterminado es~/tensorflow_datasets/downloads/manual/
):
Algunos archivos TAO (vídeos HVACS y AVA) deben descargarse manualmente porque se requiere iniciar sesión en MOT. Descargue esos datos siguiendo las instrucciones en https://motchallenge.net/tao_download.php
Descargue estos datos y mueva los archivos .zip resultantes a ~/tensorflow_datasets/downloads/manual/
Si los datos que requieren descarga manual no están presentes, se omitirán y solo se utilizarán los datos que no requieran descarga manual.
Almacenamiento en caché automático ( documentación ): Desconocido
Divisiones :
Dividir | Ejemplos |
---|
Claves supervisadas (ver documento
as_supervised
):None
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ): Falta.
Cita :
@article{Dave_2020,
title={TAO: A Large-Scale Benchmark for Tracking Any Object},
ISBN={9783030585587},
ISSN={1611-3349},
url={http://dx.doi.org/10.1007/978-3-030-58558-7_26},
DOI={10.1007/978-3-030-58558-7_26},
journal={Lecture Notes in Computer Science},
publisher={Springer International Publishing},
author={Dave, Achal and Khurana, Tarasha and Tokmakov, Pavel and Schmid, Cordelia and Ramanan, Deva},
year={2020},
pages={436-454}
}
tao/480_640 (configuración predeterminada)
Descripción de la configuración : Todas las imágenes cambian de tamaño bilinealmente a 480 X 640
Estructura de características :
FeaturesDict({
'metadata': FeaturesDict({
'dataset': string,
'height': int32,
'neg_category_ids': Tensor(shape=(None,), dtype=int32),
'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
'frames': Sequence(int32),
'is_crowd': bool,
'scale_category': string,
'track_id': int32,
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Documentación de funciones :
Característica | Clase | Forma | tipo D | Descripción |
---|---|---|---|---|
FuncionesDict | ||||
metadatos | FuncionesDict | |||
metadatos/conjunto de datos | Tensor | cadena | ||
metadatos/altura | Tensor | int32 | ||
metadatos/neg_category_ids | Tensor | (Ninguno,) | int32 | |
metadatos/not_exhaustive_category_ids | Tensor | (Ninguno,) | int32 | |
metadatos/num_frames | Tensor | int32 | ||
metadatos/nombre_video | Tensor | cadena | ||
metadatos/ancho | Tensor | int32 | ||
pistas | Secuencia | |||
pistas/cajas b | Secuencia (BBoxFeature) | (Ninguno, 4) | flotador32 | |
pistas/categoría | Etiqueta de clase | int64 | ||
pistas/cuadros | Secuencia (tensor) | (Ninguno,) | int32 | |
pistas/is_crowd | Tensor | booleano | ||
pistas/categoría_escala | Tensor | cadena | ||
pistas/track_id | Tensor | int32 | ||
video | Vídeo (Imagen) | (Ninguno, 480, 640, 3) | uint8 |
tao/resolución_completa
Descripción de la configuración : la versión de resolución completa del conjunto de datos.
Estructura de características :
FeaturesDict({
'metadata': FeaturesDict({
'dataset': string,
'height': int32,
'neg_category_ids': Tensor(shape=(None,), dtype=int32),
'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
'frames': Sequence(int32),
'is_crowd': bool,
'scale_category': string,
'track_id': int32,
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Documentación de funciones :
Característica | Clase | Forma | tipo D | Descripción |
---|---|---|---|---|
FuncionesDict | ||||
metadatos | FuncionesDict | |||
metadatos/conjunto de datos | Tensor | cadena | ||
metadatos/altura | Tensor | int32 | ||
metadatos/neg_category_ids | Tensor | (Ninguno,) | int32 | |
metadatos/not_exhaustive_category_ids | Tensor | (Ninguno,) | int32 | |
metadatos/num_frames | Tensor | int32 | ||
metadatos/nombre_video | Tensor | cadena | ||
metadatos/ancho | Tensor | int32 | ||
pistas | Secuencia | |||
pistas/cajas b | Secuencia (BBoxFeature) | (Ninguno, 4) | flotador32 | |
pistas/categoría | Etiqueta de clase | int64 | ||
pistas/cuadros | Secuencia (tensor) | (Ninguno,) | int32 | |
pistas/is_crowd | Tensor | booleano | ||
pistas/categoría_escala | Tensor | cadena | ||
pistas/track_id | Tensor | int32 | ||
video | Vídeo (Imagen) | (Ninguno, Ninguno, Ninguno, 3) | uint8 |