laiion400m

Sự miêu tả :

Bộ dữ liệu LAION-400M hoàn toàn mở, có thể truy cập miễn phí.

Kiểm tra https://laion.ai/laion-400-open-dataset/ để biết mô tả đầy đủ về tập dữ liệu này.

Tất cả hình ảnh và văn bản trong tập dữ liệu LAION-400M đã được lọc bằng CLIP của OpenAI bằng cách tính toán độ tương tự cosin giữa các phần nhúng văn bản và hình ảnh và loại bỏ những phần có độ tương tự xuống dưới 0,3. Ngưỡng 0,3 đã được xác định thông qua đánh giá của con người và dường như là một phương pháp phỏng đoán tốt để ước tính sự phù hợp về ngữ nghĩa giữa hình ảnh-văn bản-nội dung.

Các cặp văn bản-hình ảnh đã được trích xuất từ kết xuất dữ liệu web Thu thập thông tin chung và từ các trang web ngẫu nhiên được thu thập dữ liệu từ năm 2014 đến năm 2021.

Tài liệu bổ sung : Khám phá trên giấy tờ có mã
Trang chủ : https://laion.ai/blog/laion-400-open-dataset/
Mã nguồn : tfds.vision_language.laion400m.Laion400m
Phiên bản :
- 1.0.0 (mặc định): Bản phát hành đầu tiên.
Kích thước tải xuống : Unknown size
Kích thước tập dữ liệu : Unknown size
Hướng dẫn tải xuống thủ công : Tập dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
Tham khảo phần "Tải xuống thông tin" trên https://laion.ai/blog/laion-400-open-dataset/
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không xác định
Chia tách :

Tách ra	Ví dụ

Khóa được giám sát (Xem as_supervised doc ): None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ): Thiếu.
Trích dẫn :

@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/hình ảnh (cấu hình mặc định)

Cấu trúc tính năng :

FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'url': Text(shape=(), dtype=string),
})

Tài liệu tính năng :

Tính năng	Lớp học	Hình dạng	loại D	Sự miêu tả	Phạm vi giá trị
	Tính năngDict
đầu đề	Chữ		sợi dây	Thuộc tính văn bản thay thế HTML
hình ảnh	Hình ảnh	(Không, Không, 3)	uint8	hình ảnh
giấy phép	Chữ		sợi dây	loại giấy phép Creative Commons (nếu có)
nsfw	Nhãn lớp		int64	Thẻ NSFW (được phát hiện bằng CLIP). Các thẻ không gắn kết và bị thiếu sẽ được thay thế bằng UNTAGGED
chiều cao ban đầu	vô hướng		int32	chiều cao ban đầu của hình ảnh
gốc_width	vô hướng		int32	chiều rộng ban đầu của hình ảnh
sự giống nhau	vô hướng		phao64	điểm tương tự cosine giữa việc nhúng văn bản và hình ảnh. Thiếu giá trị mặc định là -1.0	[0,0, 1,0]
địa chỉ	Chữ		sợi dây	URL hình ảnh

laion400m/nhúng

Cấu trúc tính năng :

FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
    'url': Text(shape=(), dtype=string),
})

Tài liệu tính năng :

Tính năng	Lớp học	Hình dạng	loại D	Sự miêu tả	Phạm vi giá trị
	Tính năngDict
đầu đề	Chữ		sợi dây	Thuộc tính văn bản thay thế HTML
hình ảnh_nhúng	Tenxơ	(512,)	phao16	Nhúng hình ảnh CLIP
giấy phép	Chữ		sợi dây	loại giấy phép Creative Commons (nếu có)
nsfw	Nhãn lớp		int64	Thẻ NSFW (được phát hiện bằng CLIP). Các thẻ không gắn kết và bị thiếu sẽ được thay thế bằng UNTAGGED
chiều cao ban đầu	vô hướng		int32	chiều cao ban đầu của hình ảnh
gốc_width	vô hướng		int32	chiều rộng ban đầu của hình ảnh
sự giống nhau	vô hướng		phao64	điểm tương tự cosine giữa việc nhúng văn bản và hình ảnh. Thiếu giá trị mặc định là -1.0	[0,0, 1,0]
văn bản_nhúng	Tenxơ	(512,)	phao16	Nhúng văn bản CLIP
địa chỉ	Chữ		sợi dây	URL hình ảnh