open_images_v4

  • Descrição :

Open Images é um conjunto de dados de aproximadamente 9 milhões de imagens que foram anotadas com rótulos de nível de imagem e caixas delimitadoras de objetos.

O conjunto de treinamento do V4 contém 14,6 milhões de caixas delimitadoras para 600 classes de objetos em 1,74 milhões de imagens, tornando-o o maior conjunto de dados existente com anotações de localização de objetos. As caixas foram em grande parte desenhadas manualmente por anotadores profissionais para garantir precisão e consistência. As imagens são muito diversas e muitas vezes contêm cenas complexas com vários objetos (8,4 por imagem em média). Além disso, o conjunto de dados é anotado com rótulos em nível de imagem abrangendo milhares de classes.

Dividir Exemplos
'test' 125.436
'train' 1.743.042
'validation' 41.620
  • Estrutura de recursos :
FeaturesDict({
    'bobjects': Sequence({
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'is_depiction': int8,
        'is_group_of': int8,
        'is_inside': int8,
        'is_occluded': int8,
        'is_truncated': int8,
        'label': ClassLabel(shape=(), dtype=int64, num_classes=601),
        'source': ClassLabel(shape=(), dtype=int64, num_classes=6),
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/filename': Text(shape=(), dtype=string),
    'objects': Sequence({
        'confidence': int32,
        'label': ClassLabel(shape=(), dtype=int64, num_classes=19995),
        'source': ClassLabel(shape=(), dtype=int64, num_classes=6),
    }),
    'objects_trainable': Sequence({
        'confidence': int32,
        'label': ClassLabel(shape=(), dtype=int64, num_classes=7186),
        'source': ClassLabel(shape=(), dtype=int64, num_classes=6),
    }),
})
  • Documentação de recursos :
Recurso Aula Forma Tipo D Descrição
RecursosDict
objetos Seqüência
bobjects/bbox BBoxFeature (4,) float32
bobjects/is_depiction Tensor int8
bobjects/is_group_of Tensor int8
bobjects/is_inside Tensor int8
bobjects/está_ocluído Tensor int8
bobjects/is_truncado Tensor int8
objetos/etiqueta ClassLabel int64
objetos/fonte ClassLabel int64
imagem Imagem (Nenhum, Nenhum, 3) uint8
imagem/nome do arquivo Texto corda
objetos Seqüência
objetos/confiança Tensor int32
objetos/rótulo ClassLabel int64
objetos/fonte ClassLabel int64
objetos_treináveis Seqüência
objetos_treináveis/confiança Tensor int32
objetos_treináveis/rótulo ClassLabel int64
objetos_treináveis/fonte ClassLabel int64
@article{OpenImages,
  author = {Alina Kuznetsova and
            Hassan Rom and
            Neil Alldrin and
            Jasper Uijlings and
            Ivan Krasin and
            Jordi Pont-Tuset and
            Shahab Kamali and
            Stefan Popov and
            Matteo Malloci and
            Tom Duerig and
            Vittorio Ferrari},
  title = {The Open Images Dataset V4: Unified image classification,
           object detection, and visual relationship detection at scale},
  year = {2018},
  journal = {arXiv:1811.00982}
}
@article{OpenImages2,
  author = {Krasin, Ivan and
            Duerig, Tom and
            Alldrin, Neil and
            Ferrari, Vittorio
            and Abu-El-Haija, Sami and
            Kuznetsova, Alina and
            Rom, Hassan and
            Uijlings, Jasper and
            Popov, Stefan and
            Kamali, Shahab and
            Malloci, Matteo and
            Pont-Tuset, Jordi and
            Veit, Andreas and
            Belongie, Serge and
            Gomes, Victor and
            Gupta, Abhinav and
            Sun, Chen and
            Chechik, Gal and
            Cai, David and
            Feng, Zheyun and
            Narayanan, Dhyanesh and
            Murphy, Kevin},
  title = {OpenImages: A public dataset for large-scale multi-label and
           multi-class image classification.},
  journal = {Dataset available from
             https://storage.googleapis.com/openimages/web/index.html},
  year={2017}
}

open_images_v4/original (configuração padrão)

  • Descrição da configuração : imagens com resolução e qualidade originais.

  • Tamanho do conjunto de dados : 562.42 GiB

  • Figura ( tfds.show_examples ):

Visualização

open_images_v4/300k

  • Descrição da configuração : As imagens têm aproximadamente 300.000 pixels, com qualidade 72 JPEG.

  • Tamanho do conjunto de dados : 81.92 GiB

  • Figura ( tfds.show_examples ):

Visualização

open_images_v4/200k

  • Descrição da configuração : As imagens têm aproximadamente 200.000 pixels, com qualidade 72 JPEG.

  • Tamanho do conjunto de dados : 60.70 GiB

  • Figura ( tfds.show_examples ):

Visualização