- Mô tả :
Bộ dữ liệu LAION-400M hoàn toàn mở, có thể truy cập miễn phí.
Kiểm tra https://laion.ai/laion-400-open-dataset/ để biết mô tả đầy đủ về bộ dữ liệu này.
Tất cả hình ảnh và văn bản trong bộ dữ liệu LAION-400M đã được lọc bằng CLIP của OpenAI bằng cách tính toán độ tương tự cosine giữa phần nhúng văn bản và hình ảnh và loại bỏ những hình ảnh và hình ảnh có độ tương tự dưới 0,3. Ngưỡng 0,3 đã được xác định thông qua đánh giá của con người và dường như là một kinh nghiệm tốt để ước tính sự phù hợp giữa hình ảnh-văn bản-nội dung ngữ nghĩa.
Các cặp hình ảnh-văn bản đã được trích xuất từ kết xuất dữ liệu web Thu thập thông tin chung và từ các trang web ngẫu nhiên được thu thập thông tin từ năm 2014 đến năm 2021.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://laion.ai/blog/laion-400-open-dataset/
Mã nguồn :
tfds.vision_language.laion400m.Laion400m
Phiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Kích thước tải xuống :
Unknown size
Kích thước tập dữ liệu :
Unknown size
Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào
download_config.manual_dir
(mặc định là~/tensorflow_datasets/downloads/manual/
):
Tham khảo phần "Tải xuống thông tin" trên https://laion.ai/blog/laion-400-open-dataset/Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không xác định
Chia tách :
Tách ra | ví dụ |
---|
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ): Thiếu.
trích dẫn :
@article{DBLP:journals/corr/abs-2111-02114,
author = {Christoph Schuhmann and
Richard Vencu and
Romain Beaumont and
Robert Kaczmarczyk and
Clayton Mullis and
Aarush Katta and
Theo Coombes and
Jenia Jitsev and
Aran Komatsuzaki},
title = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
Pairs},
journal = {CoRR},
volume = {abs/2111.02114},
year = {2021},
url = {https://arxiv.org/abs/2111.02114},
eprinttype = {arXiv},
eprint = {2111.02114},
timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
laion400m/hình ảnh (cấu hình mặc định)
- Cấu trúc tính năng :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32),
'original_width': Scalar(shape=(), dtype=int32),
'similarity': Scalar(shape=(), dtype=float64),
'url': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả | Phạm vi giá trị |
---|---|---|---|---|---|
Tính năngDict | |||||
đầu đề | Chữ | sợi dây | Thuộc tính văn bản thay thế HTML | ||
hình ảnh | Hình ảnh | (Không, Không có, 3) | uint8 | hình ảnh | |
giấy phép | Chữ | sợi dây | loại giấy phép Creative Commons (nếu có) | ||
nsfw | LớpNhãn | int64 | Thẻ NSFW (được phát hiện bằng CLIP). Các thẻ không liên kết và bị thiếu được thay thế bằng UNTAGGED | ||
original_height | Vô hướng | int32 | chiều cao ban đầu của hình ảnh | ||
original_width | Vô hướng | int32 | chiều rộng ban đầu của hình ảnh | ||
sự giống nhau | Vô hướng | phao64 | điểm tương tự cosine giữa nhúng văn bản và hình ảnh. Thiếu giá trị mặc định là -1.0 | [0.0, 1.0] | |
url | Chữ | sợi dây | URL hình ảnh |
laion400m/lần nhúng
- Cấu trúc tính năng :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image_embedding': Tensor(shape=(512,), dtype=float16),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32),
'original_width': Scalar(shape=(), dtype=int32),
'similarity': Scalar(shape=(), dtype=float64),
'text_embedding': Tensor(shape=(512,), dtype=float16),
'url': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả | Phạm vi giá trị |
---|---|---|---|---|---|
Tính năngDict | |||||
đầu đề | Chữ | sợi dây | Thuộc tính văn bản thay thế HTML | ||
image_embedding | tenxơ | (512,) | phao16 | nhúng hình ảnh CLIP | |
giấy phép | Chữ | sợi dây | loại giấy phép Creative Commons (nếu có) | ||
nsfw | LớpNhãn | int64 | Thẻ NSFW (được phát hiện bằng CLIP). Các thẻ không liên kết và bị thiếu được thay thế bằng UNTAGGED | ||
original_height | Vô hướng | int32 | chiều cao ban đầu của hình ảnh | ||
original_width | Vô hướng | int32 | chiều rộng ban đầu của hình ảnh | ||
sự giống nhau | Vô hướng | phao64 | điểm tương tự cosine giữa nhúng văn bản và hình ảnh. Thiếu giá trị mặc định là -1.0 | [0.0, 1.0] | |
text_embedding | tenxơ | (512,) | phao16 | nhúng văn bản CLIP | |
url | Chữ | sợi dây | URL hình ảnh |