segmento_qualquer coisa

  • Descrição :

Baixar SA-1B

Segment Anything 1 Billion (SA-1B) é um conjunto de dados projetado para treinar modelos de segmentação de objetos de uso geral a partir de imagens de mundo aberto. O conjunto de dados foi apresentado no artigo "Segment Anything" .

O conjunto de dados SA-1B consiste em 11 milhões de imagens diversas, de alta resolução, licenciadas e com proteção de privacidade e 1,1 bilhão de anotações de máscara. As máscaras são fornecidas no formato COCO run-length encoding (RLE) e não possuem classes.

A licença é personalizada. Por favor, leia os termos e condições completos em https://ai.facebook.com/datasets/segment-anything-downloads

Todos os recursos estão no conjunto de dados original, exceto image.content (conteúdo da imagem).

Você pode decodificar máscaras de segmentação com:

import tensorflow_datasets as tfds

pycocotools
= tfds.core.lazy_imports.pycocotools

ds
= tfds.load('segment_anything', split='train')
for example in tfds.as_numpy(ds):
  segmentation
= example['annotations']['segmentation']
 
for counts, size in zip(segmentation['counts'], segmentation['size']):
    encoded_mask
= {'size': size, 'counts': counts}
    mask
= pycocotools.decode(encoded_mask)  # np.array(dtype=uint8) mask
   
...
Dividir Exemplos
'train' 11.185.362
  • Estrutura de recursos :
FeaturesDict({
   
'annotations': Sequence({
       
'area': Scalar(shape=(), dtype=uint64),
       
'bbox': BBoxFeature(shape=(4,), dtype=float32),
       
'crop_box': BBoxFeature(shape=(4,), dtype=float32),
       
'id': Scalar(shape=(), dtype=uint64),
       
'point_coords': Tensor(shape=(1, 2), dtype=float64),
       
'predicted_iou': Scalar(shape=(), dtype=float64),
       
'segmentation': FeaturesDict({
           
'counts': string,
           
'size': Tensor(shape=(2,), dtype=uint64),
       
}),
       
'stability_score': Scalar(shape=(), dtype=float64),
   
}),
   
'image': FeaturesDict({
       
'content': Image(shape=(None, None, 3), dtype=uint8),
       
'file_name': string,
       
'height': uint64,
       
'image_id': uint64,
       
'width': uint64,
   
}),
})
  • Documentação de recursos :
Recurso Aula Forma Tipo D Descrição
RecursosDict
anotações Seqüência
anotações/área Escalar uint64 A área em pixels da máscara.
anotações/bbox BBoxFeature (4,) float32 A caixa ao redor da máscara, no formato TFDS.
anotações/crop_box BBoxFeature (4,) float32 O recorte da imagem utilizada para gerar a máscara, no formato TFDS.
anotações/id Escalar uint64 Identificador da anotação.
anotações/point_coords Tensor (1, 2) float64 O ponto coordena a entrada no modelo para gerar a máscara.
anotações/predicted_iou Escalar float64 A previsão do próprio modelo sobre a qualidade da máscara.
anotações/segmentação RecursosDict Máscara de segmentação codificada no formato COCO RLE (dict com size e counts de chaves).
anotações/segmentação/contagens Tensor corda
anotações/segmentação/tamanho Tensor (2,) uint64
anotações/pontuação_de_estabilidade Escalar float64 Uma medida da qualidade da máscara.
imagem RecursosDict
imagem/conteúdo Imagem (Nenhum, Nenhum, 3) uint8 Conteúdo da imagem.
imagem/nome_do_arquivo Tensor corda
Altura da imagem Tensor uint64
imagem/image_id Tensor uint64
Largura da imagem Tensor uint64
@misc{kirillov2023segment,
  title
={Segment Anything},
  author
={Alexander Kirillov and Eric Mintun and Nikhila Ravi and Hanzi Mao and Chloe Rolland and Laura Gustafson and Tete Xiao and Spencer Whitehead and Alexander C. Berg and Wan-Yen Lo and Piotr Dollár and Ross Girshick},
  year
={2023},
  eprint
={2304.02643},
  archivePrefix
={arXiv},
  primaryClass
={cs.CV}
}