- Descripción :
Youtube-vis es un conjunto de datos de segmentación de instancias de video. Contiene 2883 videos de YouTube de alta resolución, un conjunto de etiquetas de categoría por píxel que incluye 40 objetos comunes, como personas, animales y vehículos, 4883 instancias de video únicas y 131 000 anotaciones manuales de alta calidad.
El conjunto de datos de YouTube-VIS se divide en 2238 videos de capacitación, 302 videos de validación y 343 videos de prueba.
No se eliminó ni modificó ningún archivo durante el preprocesamiento.
Documentación adicional : Explore en Papers With Code
Página de inicio: https://youtube-vos.org/dataset/vis/
Código fuente :
tfds.video.youtube_vis.YoutubeVis
Versiones :
-
1.0.0
(predeterminado): Versión inicial.
-
Tamaño de descarga :
Unknown size
Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en
download_config.manual_dir
(el valor predeterminado es~/tensorflow_datasets/downloads/manual/
):
Descargue todos los archivos para la versión 2019 del conjunto de datos (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) del sitio web de youtube-vis y muévalos a ~/tensorflow_datasets/ descargas/manual/.
Tenga en cuenta que la página de inicio del conjunto de datos se encuentra en https://youtube-vos.org/dataset/vis/, y luego lo redirigirá a una página en https://competitions.codalab.org donde puede descargar la versión 2019 del conjunto de datos. Deberá crear una cuenta en codalab para descargar los datos. Tenga en cuenta que al momento de escribir esto, deberá omitir una advertencia de "Conexión no segura" al acceder a codalab.
Almacenamiento automático en caché ( documentación ): No
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Cita :
@article{DBLP:journals/corr/abs-1905-04804,
author = {Linjie Yang and
Yuchen Fan and
Ning Xu},
title = {Video Instance Segmentation},
journal = {CoRR},
volume = {abs/1905.04804},
year = {2019},
url = {http://arxiv.org/abs/1905.04804},
archivePrefix = {arXiv},
eprint = {1905.04804},
timestamp = {Tue, 28 May 2019 12:48:08 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
youtube_vis/full (configuración predeterminada)
Descripción de la configuración : la versión de resolución completa del conjunto de datos, con todos los marcos, incluidos los que no tienen etiquetas.
Tamaño del conjunto de datos :
33.31 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 343 |
'train' | 2,238 |
'validation' | 302 |
- Estructura de características :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
metadatos | CaracterísticasDict | |||
metadatos/altura | Tensor | int32 | ||
metadatos/num_frames | Tensor | int32 | ||
metadatos/video_name | Tensor | cuerda | ||
metadatos/ancho | Tensor | int32 | ||
pistas | Secuencia | |||
pistas/áreas | Secuencia (tensor) | (Ninguna,) | flotar32 | |
pistas/bboxes | Secuencia (BBoxFeature) | (Ninguno, 4) | flotar32 | |
pistas/categoría | Etiqueta de clase | int64 | ||
pistas/fotogramas | Secuencia (tensor) | (Ninguna,) | int32 | |
pistas/is_crowd | Tensor | bool | ||
pistas/segmentaciones | Vídeo (Imagen) | (Ninguno, Ninguno, Ninguno, 1) | uint8 | |
video | Vídeo (Imagen) | (Ninguno, Ninguno, Ninguno, 3) | uint8 |
- Ejemplos ( tfds.as_dataframe ):
youtube_vis/480_640_full
Descripción de la configuración : todas las imágenes se redimensionan de forma bilineal a 480 X 640 con todos los marcos incluidos.
Tamaño del conjunto de datos :
130.02 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 343 |
'train' | 2,238 |
'validation' | 302 |
- Estructura de características :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
metadatos | CaracterísticasDict | |||
metadatos/altura | Tensor | int32 | ||
metadatos/num_frames | Tensor | int32 | ||
metadatos/video_name | Tensor | cuerda | ||
metadatos/ancho | Tensor | int32 | ||
pistas | Secuencia | |||
pistas/áreas | Secuencia (tensor) | (Ninguna,) | flotar32 | |
pistas/bboxes | Secuencia (BBoxFeature) | (Ninguno, 4) | flotar32 | |
pistas/categoría | Etiqueta de clase | int64 | ||
pistas/fotogramas | Secuencia (tensor) | (Ninguna,) | int32 | |
pistas/is_crowd | Tensor | bool | ||
pistas/segmentaciones | Vídeo (Imagen) | (Ninguno, 480, 640, 1) | uint8 | |
video | Vídeo (Imagen) | (Ninguno, 480, 640, 3) | uint8 |
- Ejemplos ( tfds.as_dataframe ):
youtube_vis/480_640_only_frames_with_labels
Descripción de la configuración : todas las imágenes se redimensionan de forma bilineal a 480 X 640 con solo marcos con etiquetas incluidas.
Tamaño del conjunto de datos :
26.27 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 343 |
'train' | 2,238 |
'validation' | 302 |
- Estructura de características :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
metadatos | CaracterísticasDict | |||
metadatos/altura | Tensor | int32 | ||
metadatos/num_frames | Tensor | int32 | ||
metadatos/video_name | Tensor | cuerda | ||
metadatos/ancho | Tensor | int32 | ||
pistas | Secuencia | |||
pistas/áreas | Secuencia (tensor) | (Ninguna,) | flotar32 | |
pistas/bboxes | Secuencia (BBoxFeature) | (Ninguno, 4) | flotar32 | |
pistas/categoría | Etiqueta de clase | int64 | ||
pistas/fotogramas | Secuencia (tensor) | (Ninguna,) | int32 | |
pistas/is_crowd | Tensor | bool | ||
pistas/segmentaciones | Vídeo (Imagen) | (Ninguno, 480, 640, 1) | uint8 | |
video | Vídeo (Imagen) | (Ninguno, 480, 640, 3) | uint8 |
- Ejemplos ( tfds.as_dataframe ):
youtube_vis/only_frames_with_labels
Descripción de la configuración : solo imágenes con etiquetas incluidas en su resolución nativa.
Tamaño del conjunto de datos :
6.91 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 343 |
'train' | 2,238 |
'validation' | 302 |
- Estructura de características :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
metadatos | CaracterísticasDict | |||
metadatos/altura | Tensor | int32 | ||
metadatos/num_frames | Tensor | int32 | ||
metadatos/video_name | Tensor | cuerda | ||
metadatos/ancho | Tensor | int32 | ||
pistas | Secuencia | |||
pistas/áreas | Secuencia (tensor) | (Ninguna,) | flotar32 | |
pistas/bboxes | Secuencia (BBoxFeature) | (Ninguno, 4) | flotar32 | |
pistas/categoría | Etiqueta de clase | int64 | ||
pistas/fotogramas | Secuencia (tensor) | (Ninguna,) | int32 | |
pistas/is_crowd | Tensor | bool | ||
pistas/segmentaciones | Vídeo (Imagen) | (Ninguno, Ninguno, Ninguno, 1) | uint8 | |
video | Vídeo (Imagen) | (Ninguno, Ninguno, Ninguno, 3) | uint8 |
- Ejemplos ( tfds.as_dataframe ):
youtube_vis/full_train_split
Descripción de la configuración : la versión de resolución completa del conjunto de datos, con todos los marcos, incluidos los que no tienen etiquetas. Las divisiones de val y prueba se fabrican a partir de los datos de entrenamiento.
Tamaño del conjunto de datos :
26.09 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 200 |
'train' | 1,838 |
'validation' | 200 |
- Estructura de características :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
metadatos | CaracterísticasDict | |||
metadatos/altura | Tensor | int32 | ||
metadatos/num_frames | Tensor | int32 | ||
metadatos/video_name | Tensor | cuerda | ||
metadatos/ancho | Tensor | int32 | ||
pistas | Secuencia | |||
pistas/áreas | Secuencia (tensor) | (Ninguna,) | flotar32 | |
pistas/bboxes | Secuencia (BBoxFeature) | (Ninguno, 4) | flotar32 | |
pistas/categoría | Etiqueta de clase | int64 | ||
pistas/fotogramas | Secuencia (tensor) | (Ninguna,) | int32 | |
pistas/is_crowd | Tensor | bool | ||
pistas/segmentaciones | Vídeo (Imagen) | (Ninguno, Ninguno, Ninguno, 1) | uint8 | |
video | Vídeo (Imagen) | (Ninguno, Ninguno, Ninguno, 3) | uint8 |
- Ejemplos ( tfds.as_dataframe ):
youtube_vis/480_640_full_train_split
Descripción de la configuración : todas las imágenes se redimensionan de forma bilineal a 480 X 640 con todos los marcos incluidos. Las divisiones de val y prueba se fabrican a partir de los datos de entrenamiento.
Tamaño del conjunto de datos :
101.57 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 200 |
'train' | 1,838 |
'validation' | 200 |
- Estructura de características :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
metadatos | CaracterísticasDict | |||
metadatos/altura | Tensor | int32 | ||
metadatos/num_frames | Tensor | int32 | ||
metadatos/video_name | Tensor | cuerda | ||
metadatos/ancho | Tensor | int32 | ||
pistas | Secuencia | |||
pistas/áreas | Secuencia (tensor) | (Ninguna,) | flotar32 | |
pistas/bboxes | Secuencia (BBoxFeature) | (Ninguno, 4) | flotar32 | |
pistas/categoría | Etiqueta de clase | int64 | ||
pistas/fotogramas | Secuencia (tensor) | (Ninguna,) | int32 | |
pistas/is_crowd | Tensor | bool | ||
pistas/segmentaciones | Vídeo (Imagen) | (Ninguno, 480, 640, 1) | uint8 | |
video | Vídeo (Imagen) | (Ninguno, 480, 640, 3) | uint8 |
- Ejemplos ( tfds.as_dataframe ):
youtube_vis/480_640_only_frames_with_labels_train_split
Descripción de la configuración : todas las imágenes se redimensionan de forma bilineal a 480 X 640 con solo marcos con etiquetas incluidas. Las divisiones de val y prueba se fabrican a partir de los datos de entrenamiento.
Tamaño del conjunto de datos :
20.55 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 200 |
'train' | 1,838 |
'validation' | 200 |
- Estructura de características :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
metadatos | CaracterísticasDict | |||
metadatos/altura | Tensor | int32 | ||
metadatos/num_frames | Tensor | int32 | ||
metadatos/video_name | Tensor | cuerda | ||
metadatos/ancho | Tensor | int32 | ||
pistas | Secuencia | |||
pistas/áreas | Secuencia (tensor) | (Ninguna,) | flotar32 | |
pistas/bboxes | Secuencia (BBoxFeature) | (Ninguno, 4) | flotar32 | |
pistas/categoría | Etiqueta de clase | int64 | ||
pistas/fotogramas | Secuencia (tensor) | (Ninguna,) | int32 | |
pistas/is_crowd | Tensor | bool | ||
pistas/segmentaciones | Vídeo (Imagen) | (Ninguno, 480, 640, 1) | uint8 | |
video | Vídeo (Imagen) | (Ninguno, 480, 640, 3) | uint8 |
- Ejemplos ( tfds.as_dataframe ):
youtube_vis/only_frames_with_labels_train_split
Descripción de la configuración : solo imágenes con etiquetas incluidas en su resolución nativa. Las divisiones de val y prueba se fabrican a partir de los datos de entrenamiento.
Tamaño del conjunto de datos :
5.46 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 200 |
'train' | 1,838 |
'validation' | 200 |
- Estructura de características :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
metadatos | CaracterísticasDict | |||
metadatos/altura | Tensor | int32 | ||
metadatos/num_frames | Tensor | int32 | ||
metadatos/video_name | Tensor | cuerda | ||
metadatos/ancho | Tensor | int32 | ||
pistas | Secuencia | |||
pistas/áreas | Secuencia (tensor) | (Ninguna,) | flotar32 | |
pistas/bboxes | Secuencia (BBoxFeature) | (Ninguno, 4) | flotar32 | |
pistas/categoría | Etiqueta de clase | int64 | ||
pistas/fotogramas | Secuencia (tensor) | (Ninguna,) | int32 | |
pistas/is_crowd | Tensor | bool | ||
pistas/segmentaciones | Vídeo (Imagen) | (Ninguno, Ninguno, Ninguno, 1) | uint8 | |
video | Vídeo (Imagen) | (Ninguno, Ninguno, Ninguno, 3) | uint8 |
- Ejemplos ( tfds.as_dataframe ):