laiion400m

  • Sự miêu tả :

Bộ dữ liệu LAION-400M hoàn toàn mở, có thể truy cập miễn phí.

Kiểm tra https://laion.ai/laion-400-open-dataset/ để biết mô tả đầy đủ về tập dữ liệu này.

Tất cả hình ảnh và văn bản trong tập dữ liệu LAION-400M đã được lọc bằng CLIP của OpenAI bằng cách tính toán độ tương tự cosin giữa các phần nhúng văn bản và hình ảnh và loại bỏ những phần có độ tương tự xuống dưới 0,3. Ngưỡng 0,3 đã được xác định thông qua đánh giá của con người và dường như là một phương pháp phỏng đoán tốt để ước tính sự phù hợp về ngữ nghĩa giữa hình ảnh-văn bản-nội dung.

Các cặp văn bản-hình ảnh đã được trích xuất từ ​​kết xuất dữ liệu web Thu thập thông tin chung và từ các trang web ngẫu nhiên được thu thập dữ liệu từ năm 2014 đến năm 2021.

Tách ra Ví dụ
@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/hình ảnh (cấu hình mặc định)

  • Cấu trúc tính năng :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'url': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng loại D Sự miêu tả Phạm vi giá trị
Tính năngDict
đầu đề Chữ sợi dây Thuộc tính văn bản thay thế HTML
hình ảnh Hình ảnh (Không, Không, 3) uint8 hình ảnh
giấy phép Chữ sợi dây loại giấy phép Creative Commons (nếu có)
nsfw Nhãn lớp int64 Thẻ NSFW (được phát hiện bằng CLIP). Các thẻ không gắn kết và bị thiếu sẽ được thay thế bằng UNTAGGED
chiều cao ban đầu vô hướng int32 chiều cao ban đầu của hình ảnh
gốc_width vô hướng int32 chiều rộng ban đầu của hình ảnh
sự giống nhau vô hướng phao64 điểm tương tự cosine giữa việc nhúng văn bản và hình ảnh. Thiếu giá trị mặc định là -1.0 [0,0, 1,0]
địa chỉ Chữ sợi dây URL hình ảnh

laion400m/nhúng

  • Cấu trúc tính năng :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
    'url': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng loại D Sự miêu tả Phạm vi giá trị
Tính năngDict
đầu đề Chữ sợi dây Thuộc tính văn bản thay thế HTML
hình ảnh_nhúng Tenxơ (512,) phao16 Nhúng hình ảnh CLIP
giấy phép Chữ sợi dây loại giấy phép Creative Commons (nếu có)
nsfw Nhãn lớp int64 Thẻ NSFW (được phát hiện bằng CLIP). Các thẻ không gắn kết và bị thiếu sẽ được thay thế bằng UNTAGGED
chiều cao ban đầu vô hướng int32 chiều cao ban đầu của hình ảnh
gốc_width vô hướng int32 chiều rộng ban đầu của hình ảnh
sự giống nhau vô hướng phao64 điểm tương tự cosine giữa việc nhúng văn bản và hình ảnh. Thiếu giá trị mặc định là -1.0 [0,0, 1,0]
văn bản_nhúng Tenxơ (512,) phao16 Nhúng văn bản CLIP
địa chỉ Chữ sợi dây URL hình ảnh