세그먼트_아무거나

  • 설명 :

SA-1B 다운로드

SA-1B(Segment Anything 1 Billion)는 오픈 월드 이미지에서 범용 객체 분할 모델을 훈련하기 위해 설계된 데이터 세트입니다. 데이터 세트는 "Segment Anything" 논문에 소개되었습니다.

SA-1B 데이터 세트는 1,100만 개의 다양한 고해상도, 라이선스가 부여된 개인 정보 보호 이미지와 1.1B개의 마스크 주석으로 구성됩니다. 마스크는 COCO RLE(런길이 인코딩) 형식으로 제공되며 클래스가 없습니다.

라이센스는 사용자 정의입니다. https://ai.facebook.com/datasets/segment-anything-downloads 에서 전체 이용 약관을 읽어보세요.

image.content (이미지 콘텐츠)를 제외한 모든 기능은 원본 데이터세트에 있습니다.

다음을 사용하여 분할 마스크를 디코딩할 수 있습니다.

import tensorflow_datasets as tfds

pycocotools = tfds.core.lazy_imports.pycocotools

ds = tfds.load('segment_anything', split='train')
for example in tfds.as_numpy(ds):
  segmentation = example['annotations']['segmentation']
  for counts, size in zip(segmentation['counts'], segmentation['size']):
    encoded_mask = {'size': size, 'counts': counts}
    mask = pycocotools.decode(encoded_mask)  # np.array(dtype=uint8) mask
    ...
나뉘다
'train' 11,185,362
  • 기능 구조 :
FeaturesDict({
    'annotations': Sequence({
        'area': Scalar(shape=(), dtype=uint64, description=The area in pixels of the mask.),
        'bbox': BBoxFeature(shape=(4,), dtype=float32, description=The box around the mask, in TFDS format.),
        'crop_box': BBoxFeature(shape=(4,), dtype=float32, description=The crop of the image used to generate the mask, in TFDS format.),
        'id': Scalar(shape=(), dtype=uint64, description=Identifier for the annotation.),
        'point_coords': Tensor(shape=(1, 2), dtype=float64, description=The point coordinates input to the model to generate the mask.),
        'predicted_iou': Scalar(shape=(), dtype=float64, description=The model's own prediction of the mask's quality.),
        'segmentation': FeaturesDict({
            'counts': string,
            'size': Tensor(shape=(2,), dtype=uint64),
        }),
        'stability_score': Scalar(shape=(), dtype=float64, description=A measure of the mask's quality.),
    }),
    'image': FeaturesDict({
        'content': Image(shape=(None, None, 3), dtype=uint8, description=Content of the image.),
        'file_name': string,
        'height': uint64,
        'image_id': uint64,
        'width': uint64,
    }),
})
  • 기능 문서 :
특징 수업 모양 Dtype 설명
특징Dict
주석 순서
주석/영역 스칼라 단위64 마스크의 픽셀 단위 영역입니다.
주석/bbox B박스특징 (4,) float32 TFDS 형식의 마스크 주위 상자입니다.
주석/crop_box B박스특징 (4,) float32 마스크를 생성하는 데 사용된 이미지의 자르기(TFDS 형식)입니다.
주석/ID 스칼라 단위64 주석의 식별자입니다.
주석/point_coords 텐서 (1, 2) float64 점은 마스크를 생성하기 위해 모델에 대한 입력을 조정합니다.
주석/predicted_iou 스칼라 float64 마스크 품질에 대한 모델 자체 예측입니다.
주석/분할 특징Dict COCO RLE 형식으로 인코딩된 분할 마스크(키 sizecounts 포함된 dict)
주석/분할/개수 텐서
주석/분할/크기 텐서 (2,) 단위64
주석/안정성_점수 스칼라 float64 마스크의 품질을 측정하는 척도입니다.
영상 특징Dict
이미지/콘텐츠 영상 (없음, 없음, 3) uint8 이미지의 내용.
이미지/파일_이름 텐서
이미지/높이 텐서 단위64
이미지/이미지_ID 텐서 단위64
이미지/너비 텐서 단위64
  • 인용 :
@misc{kirillov2023segment,
  title={Segment Anything},
  author={Alexander Kirillov and Eric Mintun and Nikhila Ravi and Hanzi Mao and Chloe Rolland and Laura Gustafson and Tete Xiao and Spencer Whitehead and Alexander C. Berg and Wan-Yen Lo and Piotr Dollár and Ross Girshick},
  year={2023},
  eprint={2304.02643},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}