youtube_vis

  • Descripción :

Youtube-vis es un conjunto de datos de segmentación de instancias de video. Contiene 2883 videos de YouTube de alta resolución, un conjunto de etiquetas de categoría por píxel que incluye 40 objetos comunes, como personas, animales y vehículos, 4883 instancias de video únicas y 131 000 anotaciones manuales de alta calidad.

El conjunto de datos de YouTube-VIS se divide en 2238 videos de capacitación, 302 videos de validación y 343 videos de prueba.

No se eliminó ni modificó ningún archivo durante el preprocesamiento.

  • Documentación adicional : Explore en Papers With Code

  • Página de inicio: https://youtube-vos.org/dataset/vis/

  • Código fuente : tfds.video.youtube_vis.YoutubeVis

  • Versiones :

    • 1.0.0 (predeterminado): Versión inicial.
  • Tamaño de descarga : Unknown size

  • Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en download_config.manual_dir (el valor predeterminado es ~/tensorflow_datasets/downloads/manual/ ):
    Descargue todos los archivos para la versión 2019 del conjunto de datos (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) del sitio web de youtube-vis y muévalos a ~/tensorflow_datasets/ descargas/manual/.

Tenga en cuenta que la página de inicio del conjunto de datos se encuentra en https://youtube-vos.org/dataset/vis/, y luego lo redirigirá a una página en https://competitions.codalab.org donde puede descargar la versión 2019 del conjunto de datos. Deberá crear una cuenta en codalab para descargar los datos. Tenga en cuenta que al momento de escribir esto, deberá omitir una advertencia de "Conexión no segura" al acceder a codalab.

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis/full (configuración predeterminada)

  • Descripción de la configuración : la versión de resolución completa del conjunto de datos, con todos los marcos, incluidos los que no tienen etiquetas.

  • Tamaño del conjunto de datos : 33.31 GiB

  • Divisiones :

Separar Ejemplos
'test' 343
'train' 2,238
'validation' 302
  • Estructura de características :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
metadatos CaracterísticasDict
metadatos/altura Tensor int32
metadatos/num_frames Tensor int32
metadatos/video_name Tensor cuerda
metadatos/ancho Tensor int32
pistas Secuencia
pistas/áreas Secuencia (tensor) (Ninguna,) flotar32
pistas/bboxes Secuencia (BBoxFeature) (Ninguno, 4) flotar32
pistas/categoría Etiqueta de clase int64
pistas/fotogramas Secuencia (tensor) (Ninguna,) int32
pistas/is_crowd Tensor bool
pistas/segmentaciones Vídeo (Imagen) (Ninguno, Ninguno, Ninguno, 1) uint8
video Vídeo (Imagen) (Ninguno, Ninguno, Ninguno, 3) uint8

youtube_vis/480_640_full

  • Descripción de la configuración : todas las imágenes se redimensionan de forma bilineal a 480 X 640 con todos los marcos incluidos.

  • Tamaño del conjunto de datos : 130.02 GiB

  • Divisiones :

Separar Ejemplos
'test' 343
'train' 2,238
'validation' 302
  • Estructura de características :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
metadatos CaracterísticasDict
metadatos/altura Tensor int32
metadatos/num_frames Tensor int32
metadatos/video_name Tensor cuerda
metadatos/ancho Tensor int32
pistas Secuencia
pistas/áreas Secuencia (tensor) (Ninguna,) flotar32
pistas/bboxes Secuencia (BBoxFeature) (Ninguno, 4) flotar32
pistas/categoría Etiqueta de clase int64
pistas/fotogramas Secuencia (tensor) (Ninguna,) int32
pistas/is_crowd Tensor bool
pistas/segmentaciones Vídeo (Imagen) (Ninguno, 480, 640, 1) uint8
video Vídeo (Imagen) (Ninguno, 480, 640, 3) uint8

youtube_vis/480_640_only_frames_with_labels

  • Descripción de la configuración : todas las imágenes se redimensionan de forma bilineal a 480 X 640 con solo marcos con etiquetas incluidas.

  • Tamaño del conjunto de datos : 26.27 GiB

  • Divisiones :

Separar Ejemplos
'test' 343
'train' 2,238
'validation' 302
  • Estructura de características :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
metadatos CaracterísticasDict
metadatos/altura Tensor int32
metadatos/num_frames Tensor int32
metadatos/video_name Tensor cuerda
metadatos/ancho Tensor int32
pistas Secuencia
pistas/áreas Secuencia (tensor) (Ninguna,) flotar32
pistas/bboxes Secuencia (BBoxFeature) (Ninguno, 4) flotar32
pistas/categoría Etiqueta de clase int64
pistas/fotogramas Secuencia (tensor) (Ninguna,) int32
pistas/is_crowd Tensor bool
pistas/segmentaciones Vídeo (Imagen) (Ninguno, 480, 640, 1) uint8
video Vídeo (Imagen) (Ninguno, 480, 640, 3) uint8

youtube_vis/only_frames_with_labels

  • Descripción de la configuración : solo imágenes con etiquetas incluidas en su resolución nativa.

  • Tamaño del conjunto de datos : 6.91 GiB

  • Divisiones :

Separar Ejemplos
'test' 343
'train' 2,238
'validation' 302
  • Estructura de características :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
metadatos CaracterísticasDict
metadatos/altura Tensor int32
metadatos/num_frames Tensor int32
metadatos/video_name Tensor cuerda
metadatos/ancho Tensor int32
pistas Secuencia
pistas/áreas Secuencia (tensor) (Ninguna,) flotar32
pistas/bboxes Secuencia (BBoxFeature) (Ninguno, 4) flotar32
pistas/categoría Etiqueta de clase int64
pistas/fotogramas Secuencia (tensor) (Ninguna,) int32
pistas/is_crowd Tensor bool
pistas/segmentaciones Vídeo (Imagen) (Ninguno, Ninguno, Ninguno, 1) uint8
video Vídeo (Imagen) (Ninguno, Ninguno, Ninguno, 3) uint8

youtube_vis/full_train_split

  • Descripción de la configuración : la versión de resolución completa del conjunto de datos, con todos los marcos, incluidos los que no tienen etiquetas. Las divisiones de val y prueba se fabrican a partir de los datos de entrenamiento.

  • Tamaño del conjunto de datos : 26.09 GiB

  • Divisiones :

Separar Ejemplos
'test' 200
'train' 1,838
'validation' 200
  • Estructura de características :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
metadatos CaracterísticasDict
metadatos/altura Tensor int32
metadatos/num_frames Tensor int32
metadatos/video_name Tensor cuerda
metadatos/ancho Tensor int32
pistas Secuencia
pistas/áreas Secuencia (tensor) (Ninguna,) flotar32
pistas/bboxes Secuencia (BBoxFeature) (Ninguno, 4) flotar32
pistas/categoría Etiqueta de clase int64
pistas/fotogramas Secuencia (tensor) (Ninguna,) int32
pistas/is_crowd Tensor bool
pistas/segmentaciones Vídeo (Imagen) (Ninguno, Ninguno, Ninguno, 1) uint8
video Vídeo (Imagen) (Ninguno, Ninguno, Ninguno, 3) uint8

youtube_vis/480_640_full_train_split

  • Descripción de la configuración : todas las imágenes se redimensionan de forma bilineal a 480 X 640 con todos los marcos incluidos. Las divisiones de val y prueba se fabrican a partir de los datos de entrenamiento.

  • Tamaño del conjunto de datos : 101.57 GiB

  • Divisiones :

Separar Ejemplos
'test' 200
'train' 1,838
'validation' 200
  • Estructura de características :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
metadatos CaracterísticasDict
metadatos/altura Tensor int32
metadatos/num_frames Tensor int32
metadatos/video_name Tensor cuerda
metadatos/ancho Tensor int32
pistas Secuencia
pistas/áreas Secuencia (tensor) (Ninguna,) flotar32
pistas/bboxes Secuencia (BBoxFeature) (Ninguno, 4) flotar32
pistas/categoría Etiqueta de clase int64
pistas/fotogramas Secuencia (tensor) (Ninguna,) int32
pistas/is_crowd Tensor bool
pistas/segmentaciones Vídeo (Imagen) (Ninguno, 480, 640, 1) uint8
video Vídeo (Imagen) (Ninguno, 480, 640, 3) uint8

youtube_vis/480_640_only_frames_with_labels_train_split

  • Descripción de la configuración : todas las imágenes se redimensionan de forma bilineal a 480 X 640 con solo marcos con etiquetas incluidas. Las divisiones de val y prueba se fabrican a partir de los datos de entrenamiento.

  • Tamaño del conjunto de datos : 20.55 GiB

  • Divisiones :

Separar Ejemplos
'test' 200
'train' 1,838
'validation' 200
  • Estructura de características :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
metadatos CaracterísticasDict
metadatos/altura Tensor int32
metadatos/num_frames Tensor int32
metadatos/video_name Tensor cuerda
metadatos/ancho Tensor int32
pistas Secuencia
pistas/áreas Secuencia (tensor) (Ninguna,) flotar32
pistas/bboxes Secuencia (BBoxFeature) (Ninguno, 4) flotar32
pistas/categoría Etiqueta de clase int64
pistas/fotogramas Secuencia (tensor) (Ninguna,) int32
pistas/is_crowd Tensor bool
pistas/segmentaciones Vídeo (Imagen) (Ninguno, 480, 640, 1) uint8
video Vídeo (Imagen) (Ninguno, 480, 640, 3) uint8

youtube_vis/only_frames_with_labels_train_split

  • Descripción de la configuración : solo imágenes con etiquetas incluidas en su resolución nativa. Las divisiones de val y prueba se fabrican a partir de los datos de entrenamiento.

  • Tamaño del conjunto de datos : 5.46 GiB

  • Divisiones :

Separar Ejemplos
'test' 200
'train' 1,838
'validation' 200
  • Estructura de características :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
metadatos CaracterísticasDict
metadatos/altura Tensor int32
metadatos/num_frames Tensor int32
metadatos/video_name Tensor cuerda
metadatos/ancho Tensor int32
pistas Secuencia
pistas/áreas Secuencia (tensor) (Ninguna,) flotar32
pistas/bboxes Secuencia (BBoxFeature) (Ninguno, 4) flotar32
pistas/categoría Etiqueta de clase int64
pistas/fotogramas Secuencia (tensor) (Ninguna,) int32
pistas/is_crowd Tensor bool
pistas/segmentaciones Vídeo (Imagen) (Ninguno, Ninguno, Ninguno, 1) uint8
video Vídeo (Imagen) (Ninguno, Ninguno, Ninguno, 3) uint8