- Descrição :
Youtube-vis é um conjunto de dados de segmentação de instância de vídeo. Ele contém 2.883 vídeos do YouTube de alta resolução, um conjunto de rótulos de categoria por pixel, incluindo 40 objetos comuns, como pessoas, animais e veículos, 4.883 instâncias de vídeo exclusivas e 131 mil anotações manuais de alta qualidade.
O conjunto de dados do YouTube-VIS é dividido em 2.238 vídeos de treinamento, 302 vídeos de validação e 343 vídeos de teste.
Nenhum arquivo foi removido ou alterado durante o pré-processamento.
Documentação Adicional : Explore em Papers With Code
Página inicial : https://youtube-vos.org/dataset/vis/
Código -fonte:
tfds.video.youtube_vis.YoutubeVis
Versões :
-
1.0.0
(padrão): versão inicial.
-
Tamanho do download :
Unknown size
Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em
download_config.manual_dir
(o padrão é~/tensorflow_datasets/downloads/manual/
):
Baixe todos os arquivos para a versão 2019 do conjunto de dados (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) do site youtube-vis e mova-os para ~/tensorflow_datasets/ downloads/manuais/.
Observe que a página de destino do conjunto de dados está localizada em https://youtube-vos.org/dataset/vis/ e o redirecionará para uma página em https://competitions.codalab.org onde você pode baixar a versão 2019 do conjunto de dados. Você precisará fazer uma conta no codalab para baixar os dados. Observe que, no momento em que escrevo isso, você precisará ignorar um aviso "Conexão não segura" ao acessar o codalab.
Armazenado em cache automaticamente ( documentação ): Não
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não compatível.
Citação :
@article{DBLP:journals/corr/abs-1905-04804,
author = {Linjie Yang and
Yuchen Fan and
Ning Xu},
title = {Video Instance Segmentation},
journal = {CoRR},
volume = {abs/1905.04804},
year = {2019},
url = {http://arxiv.org/abs/1905.04804},
archivePrefix = {arXiv},
eprint = {1905.04804},
timestamp = {Tue, 28 May 2019 12:48:08 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
youtube_vis/full (configuração padrão)
Descrição da configuração : a versão de resolução total do conjunto de dados, com todos os quadros, incluindo aqueles sem rótulos incluídos.
Tamanho do conjunto de dados :
33.31 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 343 |
'train' | 2.238 |
'validation' | 302 |
- Estrutura de recursos :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
metadados | RecursosDict | |||
metadados/altura | tensor | int32 | ||
metadados/num_frames | tensor | int32 | ||
metadados/video_name | tensor | corda | ||
metadados/largura | tensor | int32 | ||
faixas | Seqüência | |||
pistas/áreas | Sequência(Tensor) | (Nenhum,) | float32 | |
faixas/bboxes | Sequência (BBoxFeature) | (Nenhuma, 4) | float32 | |
faixas/categoria | ClassLabel | int64 | ||
faixas/quadros | Sequência(Tensor) | (Nenhum,) | int32 | |
faixas/is_crowd | tensor | bool | ||
trilhas/segmentações | Vídeo(Imagem) | (Nenhum, Nenhum, Nenhum, 1) | uint8 | |
vídeo | Vídeo(Imagem) | (Nenhum, Nenhum, Nenhum, 3) | uint8 |
- Exemplos ( tfds.as_dataframe ):
youtube_vis/480_640_full
Descrição da configuração : Todas as imagens são redimensionadas bilinearmente para 480 X 640 com todos os quadros incluídos.
Tamanho do conjunto de dados :
130.02 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 343 |
'train' | 2.238 |
'validation' | 302 |
- Estrutura de recursos :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
metadados | RecursosDict | |||
metadados/altura | tensor | int32 | ||
metadados/num_frames | tensor | int32 | ||
metadados/video_name | tensor | corda | ||
metadados/largura | tensor | int32 | ||
faixas | Seqüência | |||
pistas/áreas | Sequência(Tensor) | (Nenhum,) | float32 | |
faixas/bboxes | Sequência (BBoxFeature) | (Nenhuma, 4) | float32 | |
faixas/categoria | ClassLabel | int64 | ||
faixas/quadros | Sequência(Tensor) | (Nenhum,) | int32 | |
faixas/is_crowd | tensor | bool | ||
trilhas/segmentações | Vídeo(Imagem) | (Nenhuma, 480, 640, 1) | uint8 | |
vídeo | Vídeo(Imagem) | (Nenhum, 480, 640, 3) | uint8 |
- Exemplos ( tfds.as_dataframe ):
youtube_vis/480_640_only_frames_with_labels
Descrição da configuração : Todas as imagens são redimensionadas bilinearmente para 480 X 640 com apenas quadros com rótulos incluídos.
Tamanho do conjunto de dados :
26.27 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 343 |
'train' | 2.238 |
'validation' | 302 |
- Estrutura de recursos :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
metadados | RecursosDict | |||
metadados/altura | tensor | int32 | ||
metadados/num_frames | tensor | int32 | ||
metadados/video_name | tensor | corda | ||
metadados/largura | tensor | int32 | ||
faixas | Seqüência | |||
pistas/áreas | Sequência(Tensor) | (Nenhum,) | float32 | |
faixas/bboxes | Sequência (BBoxFeature) | (Nenhuma, 4) | float32 | |
faixas/categoria | ClassLabel | int64 | ||
faixas/quadros | Sequência(Tensor) | (Nenhum,) | int32 | |
faixas/is_crowd | tensor | bool | ||
trilhas/segmentações | Vídeo(Imagem) | (Nenhuma, 480, 640, 1) | uint8 | |
vídeo | Vídeo(Imagem) | (Nenhum, 480, 640, 3) | uint8 |
- Exemplos ( tfds.as_dataframe ):
youtube_vis/only_frames_with_labels
Descrição da configuração : Somente imagens com rótulos incluídos em sua resolução nativa.
Tamanho do conjunto de dados :
6.91 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 343 |
'train' | 2.238 |
'validation' | 302 |
- Estrutura de recursos :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
metadados | RecursosDict | |||
metadados/altura | tensor | int32 | ||
metadados/num_frames | tensor | int32 | ||
metadados/video_name | tensor | corda | ||
metadados/largura | tensor | int32 | ||
faixas | Seqüência | |||
pistas/áreas | Sequência(Tensor) | (Nenhum,) | float32 | |
faixas/bboxes | Sequência (BBoxFeature) | (Nenhuma, 4) | float32 | |
faixas/categoria | ClassLabel | int64 | ||
faixas/quadros | Sequência(Tensor) | (Nenhum,) | int32 | |
faixas/is_crowd | tensor | bool | ||
trilhas/segmentações | Vídeo(Imagem) | (Nenhum, Nenhum, Nenhum, 1) | uint8 | |
vídeo | Vídeo(Imagem) | (Nenhum, Nenhum, Nenhum, 3) | uint8 |
- Exemplos ( tfds.as_dataframe ):
youtube_vis/full_train_split
Descrição da configuração : a versão de resolução total do conjunto de dados, com todos os quadros, incluindo aqueles sem rótulos incluídos. As divisões val e test são fabricadas a partir dos dados de treinamento.
Tamanho do conjunto de dados :
26.09 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 200 |
'train' | 1.838 |
'validation' | 200 |
- Estrutura de recursos :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
metadados | RecursosDict | |||
metadados/altura | tensor | int32 | ||
metadados/num_frames | tensor | int32 | ||
metadados/video_name | tensor | corda | ||
metadados/largura | tensor | int32 | ||
faixas | Seqüência | |||
pistas/áreas | Sequência(Tensor) | (Nenhum,) | float32 | |
faixas/bboxes | Sequência (BBoxFeature) | (Nenhuma, 4) | float32 | |
faixas/categoria | ClassLabel | int64 | ||
faixas/quadros | Sequência(Tensor) | (Nenhum,) | int32 | |
faixas/is_crowd | tensor | bool | ||
trilhas/segmentações | Vídeo(Imagem) | (Nenhum, Nenhum, Nenhum, 1) | uint8 | |
vídeo | Vídeo(Imagem) | (Nenhum, Nenhum, Nenhum, 3) | uint8 |
- Exemplos ( tfds.as_dataframe ):
youtube_vis/480_640_full_train_split
Descrição da configuração : Todas as imagens são redimensionadas bilinearmente para 480 X 640 com todos os quadros incluídos. As divisões val e test são fabricadas a partir dos dados de treinamento.
Tamanho do conjunto de dados :
101.57 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 200 |
'train' | 1.838 |
'validation' | 200 |
- Estrutura de recursos :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
metadados | RecursosDict | |||
metadados/altura | tensor | int32 | ||
metadados/num_frames | tensor | int32 | ||
metadados/video_name | tensor | corda | ||
metadados/largura | tensor | int32 | ||
faixas | Seqüência | |||
pistas/áreas | Sequência(Tensor) | (Nenhum,) | float32 | |
faixas/bboxes | Sequência (BBoxFeature) | (Nenhuma, 4) | float32 | |
faixas/categoria | ClassLabel | int64 | ||
faixas/quadros | Sequência(Tensor) | (Nenhum,) | int32 | |
faixas/is_crowd | tensor | bool | ||
trilhas/segmentações | Vídeo(Imagem) | (Nenhuma, 480, 640, 1) | uint8 | |
vídeo | Vídeo(Imagem) | (Nenhum, 480, 640, 3) | uint8 |
- Exemplos ( tfds.as_dataframe ):
youtube_vis/480_640_only_frames_with_labels_train_split
Descrição da configuração : Todas as imagens são redimensionadas bilinearmente para 480 X 640 com apenas quadros com rótulos incluídos. As divisões val e test são fabricadas a partir dos dados de treinamento.
Tamanho do conjunto de dados :
20.55 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 200 |
'train' | 1.838 |
'validation' | 200 |
- Estrutura de recursos :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
metadados | RecursosDict | |||
metadados/altura | tensor | int32 | ||
metadados/num_frames | tensor | int32 | ||
metadados/video_name | tensor | corda | ||
metadados/largura | tensor | int32 | ||
faixas | Seqüência | |||
pistas/áreas | Sequência(Tensor) | (Nenhum,) | float32 | |
faixas/bboxes | Sequência (BBoxFeature) | (Nenhuma, 4) | float32 | |
faixas/categoria | ClassLabel | int64 | ||
faixas/quadros | Sequência(Tensor) | (Nenhum,) | int32 | |
faixas/is_crowd | tensor | bool | ||
trilhas/segmentações | Vídeo(Imagem) | (Nenhuma, 480, 640, 1) | uint8 | |
vídeo | Vídeo(Imagem) | (Nenhum, 480, 640, 3) | uint8 |
- Exemplos ( tfds.as_dataframe ):
youtube_vis/only_frames_with_labels_train_split
Descrição da configuração : Somente imagens com rótulos incluídos em sua resolução nativa. As divisões val e test são fabricadas a partir dos dados de treinamento.
Tamanho do conjunto de dados :
5.46 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 200 |
'train' | 1.838 |
'validation' | 200 |
- Estrutura de recursos :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
metadados | RecursosDict | |||
metadados/altura | tensor | int32 | ||
metadados/num_frames | tensor | int32 | ||
metadados/video_name | tensor | corda | ||
metadados/largura | tensor | int32 | ||
faixas | Seqüência | |||
pistas/áreas | Sequência(Tensor) | (Nenhum,) | float32 | |
faixas/bboxes | Sequência (BBoxFeature) | (Nenhuma, 4) | float32 | |
faixas/categoria | ClassLabel | int64 | ||
faixas/quadros | Sequência(Tensor) | (Nenhum,) | int32 | |
faixas/is_crowd | tensor | bool | ||
trilhas/segmentações | Vídeo(Imagem) | (Nenhum, Nenhum, Nenhum, 1) | uint8 | |
vídeo | Vídeo(Imagem) | (Nenhum, Nenhum, Nenhum, 3) | uint8 |
- Exemplos ( tfds.as_dataframe ):