- Descrição :
O conjunto de dados TAO é um grande conjunto de dados de detecção de objetos de vídeo que consiste em 2.907 vídeos de alta resolução e 833 categorias de objetos. Observe que este conjunto de dados requer pelo menos 300 GB de espaço livre para armazenamento.
Documentação adicional : Explore artigos com código
Página inicial : https://taodataset.org/
Código fonte :
tfds.video.tao.Tao
Versões :
-
1.1.0
(padrão) : Adicionada divisão de teste.
-
Tamanho do download :
Unknown size
Tamanho do conjunto de dados :
Unknown size
Instruções de download manual : este conjunto de dados requer que você baixe os dados de origem manualmente em
download_config.manual_dir
(o padrão é~/tensorflow_datasets/downloads/manual/
):
Alguns arquivos TAO (vídeos HVACS e AVA) devem ser baixados manualmente porque é necessário fazer login no MOT. Faça o download desses dados seguindo as instruções em https://motchallenge.net/tao_download.php
Baixe esses dados e mova os arquivos .zip resultantes para ~/tensorflow_datasets/downloads/manual/
Se os dados que requerem download manual não estiverem presentes, eles serão ignorados e somente os dados que não requerem download manual serão usados.
Armazenado em cache automaticamente ( documentação ): Desconhecido
Divisões :
Dividir | Exemplos |
---|
Chaves supervisionadas (consulte o documento
as_supervised
):None
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ): Ausente.
Citação :
@article{Dave_2020,
title={TAO: A Large-Scale Benchmark for Tracking Any Object},
ISBN={9783030585587},
ISSN={1611-3349},
url={http://dx.doi.org/10.1007/978-3-030-58558-7_26},
DOI={10.1007/978-3-030-58558-7_26},
journal={Lecture Notes in Computer Science},
publisher={Springer International Publishing},
author={Dave, Achal and Khurana, Tarasha and Tokmakov, Pavel and Schmid, Cordelia and Ramanan, Deva},
year={2020},
pages={436-454}
}
tao/480_640 (configuração padrão)
Descrição da configuração : Todas as imagens são redimensionadas bilinearmente para 480 X 640
Estrutura de recursos :
FeaturesDict({
'metadata': FeaturesDict({
'dataset': string,
'height': int32,
'neg_category_ids': Tensor(shape=(None,), dtype=int32),
'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
'frames': Sequence(int32),
'is_crowd': bool,
'scale_category': string,
'track_id': int32,
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Documentação de recursos :
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
metadados | RecursosDict | |||
metadados/conjunto de dados | Tensor | corda | ||
metadados/altura | Tensor | int32 | ||
metadados/neg_category_ids | Tensor | (Nenhum,) | int32 | |
metadados/not_exhaustive_category_ids | Tensor | (Nenhum,) | int32 | |
metadados/num_frames | Tensor | int32 | ||
metadados/nome_do_vídeo | Tensor | corda | ||
metadados/largura | Tensor | int32 | ||
faixas | Sequência | |||
faixas/bboxes | Sequência (BBoxFeature) | (Nenhum, 4) | float32 | |
faixas/categoria | ClassLabel | int64 | ||
trilhas/quadros | Sequência (Tensor) | (Nenhum,) | int32 | |
faixas/is_crowd | Tensor | bool | ||
trilhas/scale_category | Tensor | corda | ||
trilhas/track_id | Tensor | int32 | ||
vídeo | Vídeo (imagem) | (Nenhum, 480, 640, 3) | uint8 |
tao/resolução_completa
Descrição da configuração : a versão de resolução completa do conjunto de dados.
Estrutura de recursos :
FeaturesDict({
'metadata': FeaturesDict({
'dataset': string,
'height': int32,
'neg_category_ids': Tensor(shape=(None,), dtype=int32),
'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
'frames': Sequence(int32),
'is_crowd': bool,
'scale_category': string,
'track_id': int32,
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Documentação de recursos :
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
metadados | RecursosDict | |||
metadados/conjunto de dados | Tensor | corda | ||
metadados/altura | Tensor | int32 | ||
metadados/neg_category_ids | Tensor | (Nenhum,) | int32 | |
metadados/not_exhaustive_category_ids | Tensor | (Nenhum,) | int32 | |
metadados/num_frames | Tensor | int32 | ||
metadados/nome_do_vídeo | Tensor | corda | ||
metadados/largura | Tensor | int32 | ||
faixas | Sequência | |||
faixas/bboxes | Sequência (BBoxFeature) | (Nenhum, 4) | float32 | |
faixas/categoria | ClassLabel | int64 | ||
trilhas/quadros | Sequência (Tensor) | (Nenhum,) | int32 | |
faixas/is_crowd | Tensor | bool | ||
trilhas/scale_category | Tensor | corda | ||
trilhas/track_id | Tensor | int32 | ||
vídeo | Vídeo (imagem) | (Nenhum, Nenhum, Nenhum, 3) | uint8 |