라이온400m,라이온400m

  • 설명 :

LAION-400M 데이터 세트는 완전히 공개되어 있으며 자유롭게 액세스할 수 있습니다.

이 데이터 세트에 대한 전체 설명은 https://laion.ai/laion-400-open-dataset/를 확인하세요.

LAION-400M 데이터 세트의 모든 이미지와 텍스트는 텍스트와 이미지 임베딩 사이의 코사인 유사성을 계산하고 유사성을 0.3 미만으로 떨어뜨리는 방식으로 OpenAI의 CLIP으로 필터링되었습니다. 0.3의 임계값은 사람의 평가를 통해 결정되었으며 의미론적 이미지-텍스트-콘텐츠 일치를 추정하기 위한 좋은 휴리스틱인 것으로 보입니다.

이미지-텍스트 쌍은 Common Crawl 웹 데이터 덤프에서 추출되었으며 2014년에서 2021년 사이에 크롤링된 임의 웹 페이지에서 가져온 것입니다.

나뉘다
@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/images(기본 구성)

  • 기능 구조 :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'url': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명 값 범위
풍모Dict
표제 텍스트 HTML 대체 텍스트 속성
영상 영상 (없음, 없음, 3) uint8 영상
특허 텍스트 크리에이티브 커먼즈 라이선스 유형(해당하는 경우)
NSFW 클래스 레이블 int64 NSFW 태그(CLIP로 감지됨). 일관적이지 않고 누락된 태그는 UNTAGGED로 대체됩니다.
original_height 스칼라 int32 이미지의 원래 높이
original_width 스칼라 int32 이미지의 원래 너비
유사성 스칼라 float64 텍스트와 이미지 임베딩 사이의 코사인 유사성 점수. 누락된 값의 기본값은 -1.0입니다. [0.0, 1.0]
URL 텍스트 이미지 URL

laion400m/임베딩

  • 기능 구조 :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'text_embedding': Tensor(shape=(512,), dtype=float16),
    'url': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명 값 범위
풍모Dict
표제 텍스트 HTML 대체 텍스트 속성
image_embedding 텐서 (512,) float16 CLIP 이미지 임베딩
특허 텍스트 크리에이티브 커먼즈 라이선스 유형(해당하는 경우)
NSFW 클래스 레이블 int64 NSFW 태그(CLIP로 감지됨). 일관적이지 않고 누락된 태그는 UNTAGGED로 대체됩니다.
original_height 스칼라 int32 이미지의 원래 높이
original_width 스칼라 int32 이미지의 원래 너비
유사성 스칼라 float64 텍스트와 이미지 임베딩 사이의 코사인 유사성 점수. 누락된 값의 기본값은 -1.0입니다. [0.0, 1.0]
text_embedding 텐서 (512,) float16 CLIP 텍스트 임베딩
URL 텍스트 이미지 URL