TFDS obsługuje teraz format Croissant 🥐 ! Przeczytaj dokumentację , aby dowiedzieć się więcej.

Ta strona została przetłumaczona przez Cloud Translation API.

youtube_vis

opis :

Youtube-vis to zestaw danych segmentacji instancji wideo. Zawiera 2883 filmy wideo YouTube w wysokiej rozdzielczości, zestaw etykiet kategorii według piksela, obejmujący 40 typowych obiektów, takich jak osoby, zwierzęta i pojazdy, 4883 unikalne wystąpienia wideo i 131 000 wysokiej jakości adnotacji ręcznych.

Zbiór danych YouTube-VIS jest podzielony na 2238 filmów szkoleniowych, 302 filmy walidacyjne i 343 filmy testowe.

Żadne pliki nie zostały usunięte ani zmienione podczas wstępnego przetwarzania.

Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem
Strona główna : https://youtube-vos.org/dataset/vis/
Kod źródłowy : tfds.video.youtube_vis.YoutubeVis
Wersje :
- 1.0.0 (domyślnie): Wersja początkowa.
Rozmiar pliku do pobrania : Unknown size
Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do download_config.manual_dir (domyślnie ~/tensorflow_datasets/downloads/manual/ ):
Pobierz wszystkie pliki zestawu danych w wersji 2019 (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) ze strony youtube-vis i przenieś je do ~/tensorflow_datasets/ pliki do pobrania/instrukcja/.

Pamiętaj, że strona docelowa zestawu danych znajduje się pod adresem https://youtube-vos.org/dataset/vis/, a następnie przekieruje Cię do strony https://competitions.codalab.org , z której możesz pobrać wersję 2019 zestawu danych. Aby pobrać dane, musisz założyć konto na codalab. Pamiętaj, że w momencie pisania tego tekstu będziesz musiał ominąć ostrzeżenie „Połączenie nie jest bezpieczne” podczas uzyskiwania dostępu do Codalab.

Automatyczne buforowanie ( dokumentacja ): Nie
Klucze nadzorowane (Zobacz dokument as_supervised ): None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis/full (domyślna konfiguracja)

Opis konfiguracji : wersja zestawu danych w pełnej rozdzielczości, zawierająca wszystkie klatki, w tym te bez etykiet.
Rozmiar zestawu danych : 33.31 GiB
Podziały :

Rozdzielać	Przykłady
`'test'`	343
`'train'`	2238
`'validation'`	302

Struktura funkcji :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształt	Typ D
	FunkcjeDict
metadane	FunkcjeDict
metadane/wysokość	Napinacz		int32
metadane/liczba_ramek	Napinacz		int32
metadane/nazwa_wideo	Napinacz		strunowy
metadane/szerokość	Napinacz		int32
utwory	Sekwencja
tory/obszary	Sekwencja (Tensor)	(Nic,)	pływak32
utwory/bboxy	Sekwencja (BBoxFeature)	(Brak, 4)	pływak32
utwory/kategoria	Etykieta klasy		int64
tory/ramki	Sekwencja (Tensor)	(Nic,)	int32
tory/jest_tłum	Napinacz		bool
ścieżki/segmentacje	Wideo (obraz)	(Brak, Brak, Brak, 1)	uint8
wideo	Wideo (obraz)	(Brak, Brak, Brak, 3)	uint8

Przykłady ( tfds.as_dataframe ):

youtube_vis/480_640_full

Opis konfiguracji : Wszystkie obrazy są dwuliniowo zmieniane do rozdzielczości 480 X 640 z uwzględnieniem wszystkich klatek.
Rozmiar zestawu danych : 130.02 GiB
Podziały :

Rozdzielać	Przykłady
`'test'`	343
`'train'`	2238
`'validation'`	302

Struktura funkcji :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształt	Typ D
	FunkcjeDict
metadane	FunkcjeDict
metadane/wysokość	Napinacz		int32
metadane/liczba_ramek	Napinacz		int32
metadane/nazwa_wideo	Napinacz		strunowy
metadane/szerokość	Napinacz		int32
utwory	Sekwencja
tory/obszary	Sekwencja (Tensor)	(Nic,)	pływak32
utwory/bboxy	Sekwencja (BBoxFeature)	(Brak, 4)	pływak32
utwory/kategoria	Etykieta klasy		int64
tory/ramki	Sekwencja (Tensor)	(Nic,)	int32
tory/jest_tłum	Napinacz		bool
ścieżki/segmentacje	Wideo (obraz)	(Brak, 480, 640, 1)	uint8
wideo	Wideo (obraz)	(Brak, 480, 640, 3)	uint8

Przykłady ( tfds.as_dataframe ):

youtube_vis/480_640_only_frames_with_labels

Opis konfiguracji : Wszystkie obrazy są dwuliniowo przeskalowane do 480 X 640 z dołączonymi tylko ramkami z etykietami.
Rozmiar zestawu danych : 26.27 GiB
Podziały :

Rozdzielać	Przykłady
`'test'`	343
`'train'`	2238
`'validation'`	302

Struktura funkcji :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształt	Typ D
	FunkcjeDict
metadane	FunkcjeDict
metadane/wysokość	Napinacz		int32
metadane/liczba_ramek	Napinacz		int32
metadane/nazwa_wideo	Napinacz		strunowy
metadane/szerokość	Napinacz		int32
utwory	Sekwencja
tory/obszary	Sekwencja (Tensor)	(Nic,)	pływak32
utwory/bboxy	Sekwencja (BBoxFeature)	(Brak, 4)	pływak32
utwory/kategoria	Etykieta klasy		int64
tory/ramki	Sekwencja (Tensor)	(Nic,)	int32
tory/jest_tłum	Napinacz		bool
ścieżki/segmentacje	Wideo (obraz)	(Brak, 480, 640, 1)	uint8
wideo	Wideo (obraz)	(Brak, 480, 640, 3)	uint8

Przykłady ( tfds.as_dataframe ):

youtube_vis/only_frames_with_labels

Opis konfiguracji : tylko obrazy z dołączonymi etykietami w ich natywnej rozdzielczości.
Rozmiar zestawu danych : 6.91 GiB
Podziały :

Rozdzielać	Przykłady
`'test'`	343
`'train'`	2238
`'validation'`	302

Struktura funkcji :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształt	Typ D
	FunkcjeDict
metadane	FunkcjeDict
metadane/wysokość	Napinacz		int32
metadane/liczba_ramek	Napinacz		int32
metadane/nazwa_wideo	Napinacz		strunowy
metadane/szerokość	Napinacz		int32
utwory	Sekwencja
tory/obszary	Sekwencja (Tensor)	(Nic,)	pływak32
utwory/bboxy	Sekwencja (BBoxFeature)	(Brak, 4)	pływak32
utwory/kategoria	Etykieta klasy		int64
tory/ramki	Sekwencja (Tensor)	(Nic,)	int32
tory/jest_tłum	Napinacz		bool
ścieżki/segmentacje	Wideo (obraz)	(Brak, Brak, Brak, 1)	uint8
wideo	Wideo (obraz)	(Brak, Brak, Brak, 3)	uint8

Przykłady ( tfds.as_dataframe ):

youtube_vis/full_train_split

Opis konfiguracji : wersja zestawu danych w pełnej rozdzielczości, zawierająca wszystkie klatki, w tym te bez etykiet. Podziały val i test są tworzone na podstawie danych treningowych.
Rozmiar zestawu danych : 26.09 GiB
Podziały :

Rozdzielać	Przykłady
`'test'`	200
`'train'`	1838
`'validation'`	200

Struktura funkcji :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształt	Typ D
	FunkcjeDict
metadane	FunkcjeDict
metadane/wysokość	Napinacz		int32
metadane/liczba_ramek	Napinacz		int32
metadane/nazwa_wideo	Napinacz		strunowy
metadane/szerokość	Napinacz		int32
utwory	Sekwencja
tory/obszary	Sekwencja (Tensor)	(Nic,)	pływak32
utwory/bboxy	Sekwencja (BBoxFeature)	(Brak, 4)	pływak32
utwory/kategoria	Etykieta klasy		int64
tory/ramki	Sekwencja (Tensor)	(Nic,)	int32
tory/jest_tłum	Napinacz		bool
ścieżki/segmentacje	Wideo (obraz)	(Brak, Brak, Brak, 1)	uint8
wideo	Wideo (obraz)	(Brak, Brak, Brak, 3)	uint8

Przykłady ( tfds.as_dataframe ):

youtube_vis/480_640_full_train_split

Opis konfiguracji : Wszystkie obrazy są dwuliniowo zmieniane do rozdzielczości 480 X 640 z uwzględnieniem wszystkich klatek. Podziały val i test są tworzone na podstawie danych treningowych.
Rozmiar zestawu danych : 101.57 GiB
Podziały :

Rozdzielać	Przykłady
`'test'`	200
`'train'`	1838
`'validation'`	200

Struktura funkcji :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształt	Typ D
	FunkcjeDict
metadane	FunkcjeDict
metadane/wysokość	Napinacz		int32
metadane/liczba_ramek	Napinacz		int32
metadane/nazwa_wideo	Napinacz		strunowy
metadane/szerokość	Napinacz		int32
utwory	Sekwencja
tory/obszary	Sekwencja (Tensor)	(Nic,)	pływak32
utwory/bboxy	Sekwencja (BBoxFeature)	(Brak, 4)	pływak32
utwory/kategoria	Etykieta klasy		int64
tory/ramki	Sekwencja (Tensor)	(Nic,)	int32
tory/jest_tłum	Napinacz		bool
ścieżki/segmentacje	Wideo (obraz)	(Brak, 480, 640, 1)	uint8
wideo	Wideo (obraz)	(Brak, 480, 640, 3)	uint8

Przykłady ( tfds.as_dataframe ):

youtube_vis/480_640_only_frames_with_labels_train_split

Opis konfiguracji : Wszystkie obrazy są dwuliniowo przeskalowane do 480 X 640 z dołączonymi tylko ramkami z etykietami. Podziały val i test są tworzone na podstawie danych treningowych.
Rozmiar zestawu danych : 20.55 GiB
Podziały :

Rozdzielać	Przykłady
`'test'`	200
`'train'`	1838
`'validation'`	200

Struktura funkcji :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształt	Typ D
	FunkcjeDict
metadane	FunkcjeDict
metadane/wysokość	Napinacz		int32
metadane/liczba_ramek	Napinacz		int32
metadane/nazwa_wideo	Napinacz		strunowy
metadane/szerokość	Napinacz		int32
utwory	Sekwencja
tory/obszary	Sekwencja (Tensor)	(Nic,)	pływak32
utwory/bboxy	Sekwencja (BBoxFeature)	(Brak, 4)	pływak32
utwory/kategoria	Etykieta klasy		int64
tory/ramki	Sekwencja (Tensor)	(Nic,)	int32
tory/jest_tłum	Napinacz		bool
ścieżki/segmentacje	Wideo (obraz)	(Brak, 480, 640, 1)	uint8
wideo	Wideo (obraz)	(Brak, 480, 640, 3)	uint8

Przykłady ( tfds.as_dataframe ):

youtube_vis/only_frames_with_labels_train_split

Opis konfiguracji : tylko obrazy z dołączonymi etykietami w ich natywnej rozdzielczości. Podziały val i test są tworzone na podstawie danych treningowych.
Rozmiar zestawu danych : 5.46 GiB
Podziały :

Rozdzielać	Przykłady
`'test'`	200
`'train'`	1838
`'validation'`	200

Struktura funkcji :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształt	Typ D
	FunkcjeDict
metadane	FunkcjeDict
metadane/wysokość	Napinacz		int32
metadane/liczba_ramek	Napinacz		int32
metadane/nazwa_wideo	Napinacz		strunowy
metadane/szerokość	Napinacz		int32
utwory	Sekwencja
tory/obszary	Sekwencja (Tensor)	(Nic,)	pływak32
utwory/bboxy	Sekwencja (BBoxFeature)	(Brak, 4)	pływak32
utwory/kategoria	Etykieta klasy		int64
tory/ramki	Sekwencja (Tensor)	(Nic,)	int32
tory/jest_tłum	Napinacz		bool
ścieżki/segmentacje	Wideo (obraz)	(Brak, Brak, Brak, 1)	uint8
wideo	Wideo (obraz)	(Brak, Brak, Brak, 3)	uint8

Przykłady ( tfds.as_dataframe ):