youtube_vis

  • opis :

Youtube-vis to zestaw danych segmentacji instancji wideo. Zawiera 2883 filmy wideo YouTube w wysokiej rozdzielczości, zestaw etykiet kategorii według piksela, obejmujący 40 typowych obiektów, takich jak osoby, zwierzęta i pojazdy, 4883 unikalne wystąpienia wideo i 131 000 wysokiej jakości adnotacji ręcznych.

Zbiór danych YouTube-VIS jest podzielony na 2238 filmów szkoleniowych, 302 filmy walidacyjne i 343 filmy testowe.

Żadne pliki nie zostały usunięte ani zmienione podczas wstępnego przetwarzania.

  • Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem

  • Strona główna : https://youtube-vos.org/dataset/vis/

  • Kod źródłowy : tfds.video.youtube_vis.YoutubeVis

  • Wersje :

    • 1.0.0 (domyślnie): Wersja początkowa.
  • Rozmiar pliku do pobrania : Unknown size

  • Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do download_config.manual_dir (domyślnie ~/tensorflow_datasets/downloads/manual/ ):
    Pobierz wszystkie pliki zestawu danych w wersji 2019 (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) ze strony youtube-vis i przenieś je do ~/tensorflow_datasets/ pliki do pobrania/instrukcja/.

Pamiętaj, że strona docelowa zestawu danych znajduje się pod adresem https://youtube-vos.org/dataset/vis/, a następnie przekieruje Cię do strony https://competitions.codalab.org , z której możesz pobrać wersję 2019 zestawu danych. Aby pobrać dane, musisz założyć konto na codalab. Pamiętaj, że w momencie pisania tego tekstu będziesz musiał ominąć ostrzeżenie „Połączenie nie jest bezpieczne” podczas uzyskiwania dostępu do Codalab.

@article{DBLP:journals/corr/abs-1905-04804,
  author    
= {Linjie Yang and
               
Yuchen Fan and
               
Ning Xu},
  title    
= {Video Instance Segmentation},
  journal  
= {CoRR},
  volume    
= {abs/1905.04804},
  year      
= {2019},
  url      
= {http://arxiv.org/abs/1905.04804},
  archivePrefix
= {arXiv},
  eprint    
= {1905.04804},
  timestamp
= {Tue, 28 May 2019 12:48:08 +0200},
  biburl    
= {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource
= {dblp computer science bibliography, https://dblp.org}
}

youtube_vis/full (domyślna konfiguracja)

  • Opis konfiguracji : wersja zestawu danych w pełnej rozdzielczości, zawierająca wszystkie klatki, w tym te bez etykiet.

  • Rozmiar zestawu danych : 33.31 GiB

  • Podziały :

Rozdzielać Przykłady
'test' 343
'train' 2238
'validation' 302
  • Struktura funkcji :
FeaturesDict({
   
'metadata': FeaturesDict({
       
'height': int32,
       
'num_frames': int32,
       
'video_name': string,
       
'width': int32,
   
}),
   
'tracks': Sequence({
       
'areas': Sequence(float32),
       
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
       
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
       
'frames': Sequence(int32),
       
'is_crowd': bool,
       
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
   
}),
   
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
metadane FunkcjeDict
metadane/wysokość Napinacz int32
metadane/liczba_ramek Napinacz int32
metadane/nazwa_wideo Napinacz strunowy
metadane/szerokość Napinacz int32
utwory Sekwencja
tory/obszary Sekwencja (Tensor) (Nic,) pływak32
utwory/bboxy Sekwencja (BBoxFeature) (Brak, 4) pływak32
utwory/kategoria Etykieta klasy int64
tory/ramki Sekwencja (Tensor) (Nic,) int32
tory/jest_tłum Napinacz bool
ścieżki/segmentacje Wideo (obraz) (Brak, Brak, Brak, 1) uint8
wideo Wideo (obraz) (Brak, Brak, Brak, 3) uint8

youtube_vis/480_640_full

  • Opis konfiguracji : Wszystkie obrazy są dwuliniowo zmieniane do rozdzielczości 480 X 640 z uwzględnieniem wszystkich klatek.

  • Rozmiar zestawu danych : 130.02 GiB

  • Podziały :

Rozdzielać Przykłady
'test' 343
'train' 2238
'validation' 302
  • Struktura funkcji :
FeaturesDict({
   
'metadata': FeaturesDict({
       
'height': int32,
       
'num_frames': int32,
       
'video_name': string,
       
'width': int32,
   
}),
   
'tracks': Sequence({
       
'areas': Sequence(float32),
       
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
       
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
       
'frames': Sequence(int32),
       
'is_crowd': bool,
       
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
   
}),
   
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
metadane FunkcjeDict
metadane/wysokość Napinacz int32
metadane/liczba_ramek Napinacz int32
metadane/nazwa_wideo Napinacz strunowy
metadane/szerokość Napinacz int32
utwory Sekwencja
tory/obszary Sekwencja (Tensor) (Nic,) pływak32
utwory/bboxy Sekwencja (BBoxFeature) (Brak, 4) pływak32
utwory/kategoria Etykieta klasy int64
tory/ramki Sekwencja (Tensor) (Nic,) int32
tory/jest_tłum Napinacz bool
ścieżki/segmentacje Wideo (obraz) (Brak, 480, 640, 1) uint8
wideo Wideo (obraz) (Brak, 480, 640, 3) uint8

youtube_vis/480_640_only_frames_with_labels

  • Opis konfiguracji : Wszystkie obrazy są dwuliniowo przeskalowane do 480 X 640 z dołączonymi tylko ramkami z etykietami.

  • Rozmiar zestawu danych : 26.27 GiB

  • Podziały :

Rozdzielać Przykłady
'test' 343
'train' 2238
'validation' 302
  • Struktura funkcji :
FeaturesDict({
   
'metadata': FeaturesDict({
       
'height': int32,
       
'num_frames': int32,
       
'video_name': string,
       
'width': int32,
   
}),
   
'tracks': Sequence({
       
'areas': Sequence(float32),
       
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
       
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
       
'frames': Sequence(int32),
       
'is_crowd': bool,
       
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
   
}),
   
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
metadane FunkcjeDict
metadane/wysokość Napinacz int32
metadane/liczba_ramek Napinacz int32
metadane/nazwa_wideo Napinacz strunowy
metadane/szerokość Napinacz int32
utwory Sekwencja
tory/obszary Sekwencja (Tensor) (Nic,) pływak32
utwory/bboxy Sekwencja (BBoxFeature) (Brak, 4) pływak32
utwory/kategoria Etykieta klasy int64
tory/ramki Sekwencja (Tensor) (Nic,) int32
tory/jest_tłum Napinacz bool
ścieżki/segmentacje Wideo (obraz) (Brak, 480, 640, 1) uint8
wideo Wideo (obraz) (Brak, 480, 640, 3) uint8

youtube_vis/only_frames_with_labels

  • Opis konfiguracji : tylko obrazy z dołączonymi etykietami w ich natywnej rozdzielczości.

  • Rozmiar zestawu danych : 6.91 GiB

  • Podziały :

Rozdzielać Przykłady
'test' 343
'train' 2238
'validation' 302
  • Struktura funkcji :
FeaturesDict({
   
'metadata': FeaturesDict({
       
'height': int32,
       
'num_frames': int32,
       
'video_name': string,
       
'width': int32,
   
}),
   
'tracks': Sequence({
       
'areas': Sequence(float32),
       
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
       
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
       
'frames': Sequence(int32),
       
'is_crowd': bool,
       
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
   
}),
   
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
metadane FunkcjeDict
metadane/wysokość Napinacz int32
metadane/liczba_ramek Napinacz int32
metadane/nazwa_wideo Napinacz strunowy
metadane/szerokość Napinacz int32
utwory Sekwencja
tory/obszary Sekwencja (Tensor) (Nic,) pływak32
utwory/bboxy Sekwencja (BBoxFeature) (Brak, 4) pływak32
utwory/kategoria Etykieta klasy int64
tory/ramki Sekwencja (Tensor) (Nic,) int32
tory/jest_tłum Napinacz bool
ścieżki/segmentacje Wideo (obraz) (Brak, Brak, Brak, 1) uint8
wideo Wideo (obraz) (Brak, Brak, Brak, 3) uint8

youtube_vis/full_train_split

  • Opis konfiguracji : wersja zestawu danych w pełnej rozdzielczości, zawierająca wszystkie klatki, w tym te bez etykiet. Podziały val i test są tworzone na podstawie danych treningowych.

  • Rozmiar zestawu danych : 26.09 GiB

  • Podziały :

Rozdzielać Przykłady
'test' 200
'train' 1838
'validation' 200
  • Struktura funkcji :
FeaturesDict({
   
'metadata': FeaturesDict({
       
'height': int32,
       
'num_frames': int32,
       
'video_name': string,
       
'width': int32,
   
}),
   
'tracks': Sequence({
       
'areas': Sequence(float32),
       
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
       
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
       
'frames': Sequence(int32),
       
'is_crowd': bool,
       
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
   
}),
   
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
metadane FunkcjeDict
metadane/wysokość Napinacz int32
metadane/liczba_ramek Napinacz int32
metadane/nazwa_wideo Napinacz strunowy
metadane/szerokość Napinacz int32
utwory Sekwencja
tory/obszary Sekwencja (Tensor) (Nic,) pływak32
utwory/bboxy Sekwencja (BBoxFeature) (Brak, 4) pływak32
utwory/kategoria Etykieta klasy int64
tory/ramki Sekwencja (Tensor) (Nic,) int32
tory/jest_tłum Napinacz bool
ścieżki/segmentacje Wideo (obraz) (Brak, Brak, Brak, 1) uint8
wideo Wideo (obraz) (Brak, Brak, Brak, 3) uint8

youtube_vis/480_640_full_train_split

  • Opis konfiguracji : Wszystkie obrazy są dwuliniowo zmieniane do rozdzielczości 480 X 640 z uwzględnieniem wszystkich klatek. Podziały val i test są tworzone na podstawie danych treningowych.

  • Rozmiar zestawu danych : 101.57 GiB

  • Podziały :

Rozdzielać Przykłady
'test' 200
'train' 1838
'validation' 200
  • Struktura funkcji :
FeaturesDict({
   
'metadata': FeaturesDict({
       
'height': int32,
       
'num_frames': int32,
       
'video_name': string,
       
'width': int32,
   
}),
   
'tracks': Sequence({
       
'areas': Sequence(float32),
       
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
       
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
       
'frames': Sequence(int32),
       
'is_crowd': bool,
       
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
   
}),
   
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
metadane FunkcjeDict
metadane/wysokość Napinacz int32
metadane/liczba_ramek Napinacz int32
metadane/nazwa_wideo Napinacz strunowy
metadane/szerokość Napinacz int32
utwory Sekwencja
tory/obszary Sekwencja (Tensor) (Nic,) pływak32
utwory/bboxy Sekwencja (BBoxFeature) (Brak, 4) pływak32
utwory/kategoria Etykieta klasy int64
tory/ramki Sekwencja (Tensor) (Nic,) int32
tory/jest_tłum Napinacz bool
ścieżki/segmentacje Wideo (obraz) (Brak, 480, 640, 1) uint8
wideo Wideo (obraz) (Brak, 480, 640, 3) uint8

youtube_vis/480_640_only_frames_with_labels_train_split

  • Opis konfiguracji : Wszystkie obrazy są dwuliniowo przeskalowane do 480 X 640 z dołączonymi tylko ramkami z etykietami. Podziały val i test są tworzone na podstawie danych treningowych.

  • Rozmiar zestawu danych : 20.55 GiB

  • Podziały :

Rozdzielać Przykłady
'test' 200
'train' 1838
'validation' 200
  • Struktura funkcji :
FeaturesDict({
   
'metadata': FeaturesDict({
       
'height': int32,
       
'num_frames': int32,
       
'video_name': string,
       
'width': int32,
   
}),
   
'tracks': Sequence({
       
'areas': Sequence(float32),
       
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
       
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
       
'frames': Sequence(int32),
       
'is_crowd': bool,
       
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
   
}),
   
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
metadane FunkcjeDict
metadane/wysokość Napinacz int32
metadane/liczba_ramek Napinacz int32
metadane/nazwa_wideo Napinacz strunowy
metadane/szerokość Napinacz int32
utwory Sekwencja
tory/obszary Sekwencja (Tensor) (Nic,) pływak32
utwory/bboxy Sekwencja (BBoxFeature) (Brak, 4) pływak32
utwory/kategoria Etykieta klasy int64
tory/ramki Sekwencja (Tensor) (Nic,) int32
tory/jest_tłum Napinacz bool
ścieżki/segmentacje Wideo (obraz) (Brak, 480, 640, 1) uint8
wideo Wideo (obraz) (Brak, 480, 640, 3) uint8

youtube_vis/only_frames_with_labels_train_split

  • Opis konfiguracji : tylko obrazy z dołączonymi etykietami w ich natywnej rozdzielczości. Podziały val i test są tworzone na podstawie danych treningowych.

  • Rozmiar zestawu danych : 5.46 GiB

  • Podziały :

Rozdzielać Przykłady
'test' 200
'train' 1838
'validation' 200
  • Struktura funkcji :
FeaturesDict({
   
'metadata': FeaturesDict({
       
'height': int32,
       
'num_frames': int32,
       
'video_name': string,
       
'width': int32,
   
}),
   
'tracks': Sequence({
       
'areas': Sequence(float32),
       
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
       
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
       
'frames': Sequence(int32),
       
'is_crowd': bool,
       
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
   
}),
   
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
metadane FunkcjeDict
metadane/wysokość Napinacz int32
metadane/liczba_ramek Napinacz int32
metadane/nazwa_wideo Napinacz strunowy
metadane/szerokość Napinacz int32
utwory Sekwencja
tory/obszary Sekwencja (Tensor) (Nic,) pływak32
utwory/bboxy Sekwencja (BBoxFeature) (Brak, 4) pływak32
utwory/kategoria Etykieta klasy int64
tory/ramki Sekwencja (Tensor) (Nic,) int32
tory/jest_tłum Napinacz bool
ścieżki/segmentacje Wideo (obraz) (Brak, Brak, Brak, 1) uint8
wideo Wideo (obraz) (Brak, Brak, Brak, 3) uint8