- opis :
Zbiór danych LAION-400M jest całkowicie otwarty i swobodnie dostępny.
Sprawdź https://laion.ai/laion-400-open-dataset/ , aby uzyskać pełny opis tego zestawu danych.
Wszystkie obrazy i teksty w zbiorze danych LAION-400M zostały przefiltrowane za pomocą funkcji CLIP OpenAI poprzez obliczenie cosinusowego podobieństwa między osadzonym tekstem a obrazem i usunięcie tych, które mają podobieństwo poniżej 0,3. Próg 0,3 został określony przez ludzkie oceny i wydawał się być dobrą heurystyką do szacowania semantycznego dopasowania obraz-tekst-treść.
Pary obraz-tekst zostały wyodrębnione ze zrzutu danych sieci Web Common Crawl i pochodzą z losowych stron internetowych przeszukanych w latach 2014–2021.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem
Strona główna : https://laion.ai/blog/laion-400-open-dataset/
Kod źródłowy :
tfds.vision_language.laion400m.Laion400m
Wersje :
-
1.0.0
(domyślnie): Wersja początkowa.
-
Rozmiar pliku do pobrania :
Unknown size
Rozmiar zbioru danych :
Unknown size
Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do
download_config.manual_dir
(domyślnie~/tensorflow_datasets/downloads/manual/
):
Zapoznaj się z sekcją „Informacje o pobieraniu” na stronie https://laion.ai/blog/laion-400-open-dataset/Automatyczne buforowanie ( dokumentacja ): Nieznane
Podziały :
Podział | Przykłady |
---|
Klucze nadzorowane (Zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ): Brak.
Cytat :
@article{DBLP:journals/corr/abs-2111-02114,
author = {Christoph Schuhmann and
Richard Vencu and
Romain Beaumont and
Robert Kaczmarczyk and
Clayton Mullis and
Aarush Katta and
Theo Coombes and
Jenia Jitsev and
Aran Komatsuzaki},
title = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
Pairs},
journal = {CoRR},
volume = {abs/2111.02114},
year = {2021},
url = {https://arxiv.org/abs/2111.02114},
eprinttype = {arXiv},
eprint = {2111.02114},
timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
laion400m/images (domyślna konfiguracja)
- Struktura funkcji :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32),
'original_width': Scalar(shape=(), dtype=int32),
'similarity': Scalar(shape=(), dtype=float64),
'url': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis | Zakres wartości |
---|---|---|---|---|---|
FunkcjeDict | |||||
podpis | Tekst | strunowy | Atrybut tekstu alternatywnego HTML | ||
obraz | Obraz | (Brak, Brak, 3) | uint8 | obraz | |
licencja | Tekst | strunowy | rodzaj licencji Creative Commons (jeśli dotyczy) | ||
nsfw | Etykieta klasy | int64 | Znacznik NSFW (wykryty przez CLIP). Niespójne i brakujące tagi są zastępowane przez NIETAGGED | ||
oryginalna_wysokość | Skalarny | int32 | oryginalna wysokość obrazu | ||
oryginalna_szerokość | Skalarny | int32 | Oryginalna szerokość obrazu | ||
podobieństwo | Skalarny | pływak64 | cosinusowy wynik podobieństwa między osadzonym tekstem a obrazem. Brakujące wartości to domyślnie -1,0 | [0,0, 1,0] | |
adres URL | Tekst | strunowy | URL obrazu |
laion400m/osadzenia
- Struktura funkcji :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image_embedding': Tensor(shape=(512,), dtype=float16),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32),
'original_width': Scalar(shape=(), dtype=int32),
'similarity': Scalar(shape=(), dtype=float64),
'text_embedding': Tensor(shape=(512,), dtype=float16),
'url': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis | Zakres wartości |
---|---|---|---|---|---|
FunkcjeDict | |||||
podpis | Tekst | strunowy | Atrybut tekstu alternatywnego HTML | ||
osadzanie_obrazu | Napinacz | (512,) | pływak16 | Osadzanie obrazu CLIP | |
licencja | Tekst | strunowy | rodzaj licencji Creative Commons (jeśli dotyczy) | ||
nsfw | Etykieta klasy | int64 | Znacznik NSFW (wykryty przez CLIP). Niespójne i brakujące tagi są zastępowane przez NIETAGGED | ||
oryginalna_wysokość | Skalarny | int32 | oryginalna wysokość obrazu | ||
oryginalna_szerokość | Skalarny | int32 | Oryginalna szerokość obrazu | ||
podobieństwo | Skalarny | pływak64 | cosinusowy wynik podobieństwa między osadzonym tekstem a obrazem. Brakujące wartości to domyślnie -1,0 | [0,0, 1,0] | |
osadzanie_tekstu | Napinacz | (512,) | pływak16 | Osadzanie tekstu CLIP | |
adres URL | Tekst | strunowy | URL obrazu |