- Sự miêu tả :
Bộ dữ liệu LAION-400M hoàn toàn mở, có thể truy cập miễn phí.
Kiểm tra https://laion.ai/laion-400-open-dataset/ để biết mô tả đầy đủ về tập dữ liệu này.
Tất cả hình ảnh và văn bản trong tập dữ liệu LAION-400M đã được lọc bằng CLIP của OpenAI bằng cách tính toán độ tương tự cosin giữa các phần nhúng văn bản và hình ảnh và loại bỏ những phần có độ tương tự xuống dưới 0,3. Ngưỡng 0,3 đã được xác định thông qua đánh giá của con người và dường như là một phương pháp phỏng đoán tốt để ước tính sự phù hợp về ngữ nghĩa giữa hình ảnh-văn bản-nội dung.
Các cặp văn bản-hình ảnh đã được trích xuất từ kết xuất dữ liệu web Thu thập thông tin chung và từ các trang web ngẫu nhiên được thu thập dữ liệu từ năm 2014 đến năm 2021.
Tài liệu bổ sung : Khám phá trên giấy tờ có mã
Trang chủ : https://laion.ai/blog/laion-400-open-dataset/
Mã nguồn :
tfds.vision_language.laion400m.Laion400m
Phiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Kích thước tải xuống :
Unknown size
Kích thước tập dữ liệu :
Unknown size
Hướng dẫn tải xuống thủ công : Tập dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào
download_config.manual_dir
(mặc định là~/tensorflow_datasets/downloads/manual/
):
Tham khảo phần "Tải xuống thông tin" trên https://laion.ai/blog/laion-400-open-dataset/Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không xác định
Chia tách :
Tách ra | Ví dụ |
---|
Khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ): Thiếu.
Trích dẫn :
@article{DBLP:journals/corr/abs-2111-02114,
author = {Christoph Schuhmann and
Richard Vencu and
Romain Beaumont and
Robert Kaczmarczyk and
Clayton Mullis and
Aarush Katta and
Theo Coombes and
Jenia Jitsev and
Aran Komatsuzaki},
title = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
Pairs},
journal = {CoRR},
volume = {abs/2111.02114},
year = {2021},
url = {https://arxiv.org/abs/2111.02114},
eprinttype = {arXiv},
eprint = {2111.02114},
timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
laion400m/hình ảnh (cấu hình mặc định)
- Cấu trúc tính năng :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
'url': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | loại D | Sự miêu tả | Phạm vi giá trị |
---|---|---|---|---|---|
Tính năngDict | |||||
đầu đề | Chữ | sợi dây | Thuộc tính văn bản thay thế HTML | ||
hình ảnh | Hình ảnh | (Không, Không, 3) | uint8 | hình ảnh | |
giấy phép | Chữ | sợi dây | loại giấy phép Creative Commons (nếu có) | ||
nsfw | Nhãn lớp | int64 | Thẻ NSFW (được phát hiện bằng CLIP). Các thẻ không gắn kết và bị thiếu sẽ được thay thế bằng UNTAGGED | ||
chiều cao ban đầu | vô hướng | int32 | chiều cao ban đầu của hình ảnh | ||
gốc_width | vô hướng | int32 | chiều rộng ban đầu của hình ảnh | ||
sự giống nhau | vô hướng | phao64 | điểm tương tự cosine giữa việc nhúng văn bản và hình ảnh. Thiếu giá trị mặc định là -1.0 | [0,0, 1,0] | |
địa chỉ | Chữ | sợi dây | URL hình ảnh |
laion400m/nhúng
- Cấu trúc tính năng :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
'url': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | loại D | Sự miêu tả | Phạm vi giá trị |
---|---|---|---|---|---|
Tính năngDict | |||||
đầu đề | Chữ | sợi dây | Thuộc tính văn bản thay thế HTML | ||
hình ảnh_nhúng | Tenxơ | (512,) | phao16 | Nhúng hình ảnh CLIP | |
giấy phép | Chữ | sợi dây | loại giấy phép Creative Commons (nếu có) | ||
nsfw | Nhãn lớp | int64 | Thẻ NSFW (được phát hiện bằng CLIP). Các thẻ không gắn kết và bị thiếu sẽ được thay thế bằng UNTAGGED | ||
chiều cao ban đầu | vô hướng | int32 | chiều cao ban đầu của hình ảnh | ||
gốc_width | vô hướng | int32 | chiều rộng ban đầu của hình ảnh | ||
sự giống nhau | vô hướng | phao64 | điểm tương tự cosine giữa việc nhúng văn bản và hình ảnh. Thiếu giá trị mặc định là -1.0 | [0,0, 1,0] | |
văn bản_nhúng | Tenxơ | (512,) | phao16 | Nhúng văn bản CLIP | |
địa chỉ | Chữ | sợi dây | URL hình ảnh |