open_images_v4

  • Descrição :

Open Images é um conjunto de dados de aproximadamente 9 milhões de imagens que foram anotadas com rótulos de nível de imagem e caixas delimitadoras de objetos.

O conjunto de treinamento do V4 contém 14,6 milhões de caixas delimitadoras para 600 classes de objetos em 1,74 milhões de imagens, tornando-o o maior conjunto de dados existente com anotações de localização de objetos. As caixas foram em grande parte desenhadas manualmente por anotadores profissionais para garantir precisão e consistência. As imagens são muito diversas e muitas vezes contêm cenas complexas com vários objetos (8,4 por imagem em média). Além disso, o conjunto de dados é anotado com rótulos em nível de imagem abrangendo milhares de classes.

Dividir Exemplos
'test' 125.436
'train' 1.743.042
'validation' 41.620
  • Estrutura de recursos :
FeaturesDict({
   
'bobjects': Sequence({
       
'bbox': BBoxFeature(shape=(4,), dtype=float32),
       
'is_depiction': int8,
       
'is_group_of': int8,
       
'is_inside': int8,
       
'is_occluded': int8,
       
'is_truncated': int8,
       
'label': ClassLabel(shape=(), dtype=int64, num_classes=601),
       
'source': ClassLabel(shape=(), dtype=int64, num_classes=6),
   
}),
   
'image': Image(shape=(None, None, 3), dtype=uint8),
   
'image/filename': Text(shape=(), dtype=string),
   
'objects': Sequence({
       
'confidence': int32,
       
'label': ClassLabel(shape=(), dtype=int64, num_classes=19995),
       
'source': ClassLabel(shape=(), dtype=int64, num_classes=6),
   
}),
   
'objects_trainable': Sequence({
       
'confidence': int32,
       
'label': ClassLabel(shape=(), dtype=int64, num_classes=7186),
       
'source': ClassLabel(shape=(), dtype=int64, num_classes=6),
   
}),
})
  • Documentação de recursos :
Recurso Aula Forma Tipo D Descrição
RecursosDict
objetos Seqüência
bobjects/bbox BBoxFeature (4,) float32
bobjects/is_depiction Tensor int8
bobjects/is_group_of Tensor int8
bobjects/is_inside Tensor int8
bobjects/está_ocluído Tensor int8
bobjects/is_truncado Tensor int8
objetos/etiqueta ClassLabel int64
objetos/fonte ClassLabel int64
imagem Imagem (Nenhum, Nenhum, 3) uint8
imagem/nome do arquivo Texto corda
objetos Seqüência
objetos/confiança Tensor int32
objetos/rótulo ClassLabel int64
objetos/fonte ClassLabel int64
objetos_treináveis Seqüência
objetos_treináveis/confiança Tensor int32
objetos_treináveis/rótulo ClassLabel int64
objetos_treináveis/fonte ClassLabel int64
@article{OpenImages,
  author
= {Alina Kuznetsova and
           
Hassan Rom and
           
Neil Alldrin and
           
Jasper Uijlings and
           
Ivan Krasin and
           
Jordi Pont-Tuset and
           
Shahab Kamali and
           
Stefan Popov and
           
Matteo Malloci and
           
Tom Duerig and
           
Vittorio Ferrari},
  title
= {The Open Images Dataset V4: Unified image classification,
           
object detection, and visual relationship detection at scale},
  year
= {2018},
  journal
= {arXiv:1811.00982}
}
@article{OpenImages2,
  author
= {Krasin, Ivan and
           
Duerig, Tom and
           
Alldrin, Neil and
           
Ferrari, Vittorio
           
and Abu-El-Haija, Sami and
           
Kuznetsova, Alina and
           
Rom, Hassan and
           
Uijlings, Jasper and
           
Popov, Stefan and
           
Kamali, Shahab and
           
Malloci, Matteo and
           
Pont-Tuset, Jordi and
           
Veit, Andreas and
           
Belongie, Serge and
           
Gomes, Victor and
           
Gupta, Abhinav and
           
Sun, Chen and
           
Chechik, Gal and
           
Cai, David and
           
Feng, Zheyun and
           
Narayanan, Dhyanesh and
           
Murphy, Kevin},
  title
= {OpenImages: A public dataset for large-scale multi-label and
           multi
-class image classification.},
  journal
= {Dataset available from
             https
://storage.googleapis.com/openimages/web/index.html},
  year
={2017}
}

open_images_v4/original (configuração padrão)

  • Descrição da configuração : imagens com resolução e qualidade originais.

  • Tamanho do conjunto de dados : 562.42 GiB

  • Figura ( tfds.show_examples ):

Visualização

open_images_v4/300k

  • Descrição da configuração : As imagens têm aproximadamente 300.000 pixels, com qualidade 72 JPEG.

  • Tamanho do conjunto de dados : 81.92 GiB

  • Figura ( tfds.show_examples ):

Visualização

open_images_v4/200k

  • Descrição da configuração : As imagens têm aproximadamente 200.000 pixels, com qualidade 72 JPEG.

  • Tamanho do conjunto de dados : 60.70 GiB

  • Figura ( tfds.show_examples ):

Visualização