segmento_qualquer coisa

Descrição :

Baixar SA-1B

Segment Anything 1 Billion (SA-1B) é um conjunto de dados projetado para treinar modelos de segmentação de objetos de uso geral a partir de imagens de mundo aberto. O conjunto de dados foi apresentado no artigo "Segment Anything" .

O conjunto de dados SA-1B consiste em 11 milhões de imagens diversas, de alta resolução, licenciadas e com proteção de privacidade e 1,1 bilhão de anotações de máscara. As máscaras são fornecidas no formato COCO run-length encoding (RLE) e não possuem classes.

A licença é personalizada. Por favor, leia os termos e condições completos em https://ai.facebook.com/datasets/segment-anything-downloads

Todos os recursos estão no conjunto de dados original, exceto image.content (conteúdo da imagem).

Você pode decodificar máscaras de segmentação com:

import tensorflow_datasets as tfds

pycocotools = tfds.core.lazy_imports.pycocotools

ds = tfds.load('segment_anything', split='train')
for example in tfds.as_numpy(ds):
  segmentation = example['annotations']['segmentation']
  for counts, size in zip(segmentation['counts'], segmentation['size']):
    encoded_mask = {'size': size, 'counts': counts}
    mask = pycocotools.decode(encoded_mask)  # np.array(dtype=uint8) mask
    ...

Página inicial : https://ai.facebook.com/datasets/segment-anything-downloads
Código fonte : tfds.datasets.segment_anything.Builder
Versões :
- 1.0.0 (padrão): versão inicial.
Tamanho do download : 10.28 TiB
Tamanho do conjunto de dados : 10.59 TiB
Instruções de download manual : este conjunto de dados requer que você baixe os dados de origem manualmente em download_config.manual_dir (o padrão é ~/tensorflow_datasets/downloads/manual/ ):
Baixe o arquivo de links em https://ai.facebook.com/datasets/segment-anything-downloads manual_dir deve conter o arquivo de links salvo como segment_anything_links.txt.
Armazenado em cache automaticamente ( documentação ): Não
Divisões :

Dividir	Exemplos
`'train'`	11.185.362

Estrutura de recursos :

FeaturesDict({
    'annotations': Sequence({
        'area': Scalar(shape=(), dtype=uint64, description=The area in pixels of the mask.),
        'bbox': BBoxFeature(shape=(4,), dtype=float32, description=The box around the mask, in TFDS format.),
        'crop_box': BBoxFeature(shape=(4,), dtype=float32, description=The crop of the image used to generate the mask, in TFDS format.),
        'id': Scalar(shape=(), dtype=uint64, description=Identifier for the annotation.),
        'point_coords': Tensor(shape=(1, 2), dtype=float64, description=The point coordinates input to the model to generate the mask.),
        'predicted_iou': Scalar(shape=(), dtype=float64, description=The model's own prediction of the mask's quality.),
        'segmentation': FeaturesDict({
            'counts': string,
            'size': Tensor(shape=(2,), dtype=uint64),
        }),
        'stability_score': Scalar(shape=(), dtype=float64, description=A measure of the mask's quality.),
    }),
    'image': FeaturesDict({
        'content': Image(shape=(None, None, 3), dtype=uint8, description=Content of the image.),
        'file_name': string,
        'height': uint64,
        'image_id': uint64,
        'width': uint64,
    }),
})

Documentação de recursos :

Recurso	Aula	Forma	Tipo D	Descrição
	RecursosDict
anotações	Sequência
anotações/área	Escalar		uint64	A área em pixels da máscara.
anotações/bbox	BBoxFeature	(4,)	float32	A caixa ao redor da máscara, no formato TFDS.
anotações/crop_box	BBoxFeature	(4,)	float32	O recorte da imagem utilizada para gerar a máscara, no formato TFDS.
anotações/id	Escalar		uint64	Identificador da anotação.
anotações/point_coords	Tensor	(1, 2)	float64	O ponto coordena a entrada no modelo para gerar a máscara.
anotações/predicted_iou	Escalar		float64	A previsão do próprio modelo sobre a qualidade da máscara.
anotações/segmentação	RecursosDict			Máscara de segmentação codificada no formato COCO RLE (dict com `size` e `counts` chaves).
anotações/segmentação/contagens	Tensor		corda
anotações/segmentação/tamanho	Tensor	(2,)	uint64
anotações/pontuação_de_estabilidade	Escalar		float64	Uma medida da qualidade da máscara.
imagem	RecursosDict
imagem/conteúdo	Imagem	(Nenhum, Nenhum, 3)	uint8	Conteúdo da imagem.
imagem/nome_do_arquivo	Tensor		corda
imagem/altura	Tensor		uint64
imagem/image_id	Tensor		uint64
imagem/largura	Tensor		uint64

Chaves supervisionadas (consulte o documento as_supervised ): None
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ): Ausente.
Citação :

@misc{kirillov2023segment,
  title={Segment Anything},
  author={Alexander Kirillov and Eric Mintun and Nikhila Ravi and Hanzi Mao and Chloe Rolland and Laura Gustafson and Tete Xiao and Spencer Whitehead and Alexander C. Berg and Wan-Yen Lo and Piotr Dollár and Ross Girshick},
  year={2023},
  eprint={2304.02643},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}