- Descrição :
O conjunto de dados TAO é um grande conjunto de dados de detecção de objetos de vídeo que consiste em 2.907 vídeos de alta resolução e 833 categorias de objetos. Observe que esse conjunto de dados requer pelo menos 300 GB de espaço livre para armazenar.
Documentação Adicional : Explore em Papers With Code
Página inicial : https://taodataset.org/
Código fonte :
tfds.video.tao.Tao
Versões :
-
1.0.0
(padrão): versão inicial.
-
Tamanho do download :
113.96 GiB
Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em
download_config.manual_dir
(o padrão é~/tensorflow_datasets/downloads/manual/
):
Alguns arquivos TAO (vídeos HVACS e AVA) devem ser baixados manualmente porque é necessário fazer login no MOT. Faça o download e esses dados seguindo as instruções em https://motchallenge.net/tao_download.php
Baixe esses dados e mova os arquivos .zip resultantes para ~/tensorflow_datasets/downloads/manual/
Se os dados que exigem download manual não estiverem presentes, eles serão ignorados e apenas os dados que não exigirem download manual serão usados.
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'train' | 500 |
'validation' | 988 |
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não suportado.
Citação :
@article{Dave_2020,
title={TAO: A Large-Scale Benchmark for Tracking Any Object},
ISBN={9783030585587},
ISSN={1611-3349},
url={http://dx.doi.org/10.1007/978-3-030-58558-7_26},
DOI={10.1007/978-3-030-58558-7_26},
journal={Lecture Notes in Computer Science},
publisher={Springer International Publishing},
author={Dave, Achal and Khurana, Tarasha and Tokmakov, Pavel and Schmid, Cordelia and Ramanan, Deva},
year={2020},
pages={436-454}
}
tao/480_640 (configuração padrão)
Descrição da configuração : Todas as imagens são redimensionadas bilinearmente para 480 X 640
Tamanho do conjunto de dados :
482.30 GiB
Estrutura de recursos :
FeaturesDict({
'metadata': FeaturesDict({
'dataset': string,
'height': int32,
'neg_category_ids': Tensor(shape=(None,), dtype=int32),
'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
'frames': Sequence(int32),
'is_crowd': bool,
'scale_category': string,
'track_id': int32,
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
metadados | RecursosDict | |||
metadados/conjunto de dados | tensor | corda | ||
metadados/altura | tensor | int32 | ||
metadata/neg_category_ids | tensor | (Nenhum,) | int32 | |
metadata/not_exhaustive_category_ids | tensor | (Nenhum,) | int32 | |
metadados/num_frames | tensor | int32 | ||
metadados/video_name | tensor | corda | ||
metadados/largura | tensor | int32 | ||
faixas | Seqüência | |||
faixas/bboxes | Sequência (BBoxFeature) | (Nenhuma, 4) | float32 | |
faixas/categoria | ClassLabel | int64 | ||
faixas/quadros | Sequência(Tensor) | (Nenhum,) | int32 | |
faixas/is_crowd | tensor | bool | ||
faixas/scale_category | tensor | corda | ||
faixas/track_id | tensor | int32 | ||
vídeo | Vídeo(Imagem) | (Nenhum, 480, 640, 3) | uint8 |
- Exemplos ( tfds.as_dataframe ):
tao/full_resolution
Descrição da configuração : a versão de resolução total do conjunto de dados.
Tamanho do conjunto de dados :
171.24 GiB
Estrutura de recursos :
FeaturesDict({
'metadata': FeaturesDict({
'dataset': string,
'height': int32,
'neg_category_ids': Tensor(shape=(None,), dtype=int32),
'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
'frames': Sequence(int32),
'is_crowd': bool,
'scale_category': string,
'track_id': int32,
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
metadados | RecursosDict | |||
metadados/conjunto de dados | tensor | corda | ||
metadados/altura | tensor | int32 | ||
metadata/neg_category_ids | tensor | (Nenhum,) | int32 | |
metadata/not_exhaustive_category_ids | tensor | (Nenhum,) | int32 | |
metadados/num_frames | tensor | int32 | ||
metadados/video_name | tensor | corda | ||
metadados/largura | tensor | int32 | ||
faixas | Seqüência | |||
faixas/bboxes | Sequência (BBoxFeature) | (Nenhuma, 4) | float32 | |
faixas/categoria | ClassLabel | int64 | ||
faixas/quadros | Sequência(Tensor) | (Nenhum,) | int32 | |
faixas/is_crowd | tensor | bool | ||
faixas/scale_category | tensor | corda | ||
faixas/track_id | tensor | int32 | ||
vídeo | Vídeo(Imagem) | (Nenhum, Nenhum, Nenhum, 3) | uint8 |
- Exemplos ( tfds.as_dataframe ):