TFDS hiện hỗ trợ định dạng Croissant 🥐 ! Đọc tài liệu để biết thêm.

Trang này được dịch bởi Cloud Translation API.

youtube_vis

Mô tả :

Youtube-vis là tập dữ liệu phân đoạn phiên bản video. Nó chứa 2.883 video YouTube có độ phân giải cao, bộ nhãn danh mục trên mỗi pixel bao gồm 40 đối tượng phổ biến như người, động vật và xe cộ, 4.883 trường hợp video độc đáo và 131 nghìn chú thích thủ công chất lượng cao.

Bộ dữ liệu YouTube-VIS được chia thành 2.238 video đào tạo, 302 video xác thực và 343 video thử nghiệm.

Không có tệp nào bị xóa hoặc thay đổi trong quá trình tiền xử lý.

Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://youtube-vos.org/dataset/vis/
Mã nguồn : tfds.video.youtube_vis.YoutubeVis
Phiên bản :
- 1.0.0 (mặc định): Bản phát hành đầu tiên.
Kích thước tải xuống : Unknown size
Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
Vui lòng tải xuống tất cả các tệp cho phiên bản 2019 của bộ dữ liệu (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) từ trang web youtube-vis và di chuyển chúng đến ~/tensorflow_datasets/ tải xuống/thủ công/.

Lưu ý rằng trang đích của tập dữ liệu được đặt tại https://youtube-vos.org/dataset/vis/ và sau đó trang này sẽ chuyển hướng bạn đến một trang trên https://competitions.codalab.org nơi bạn có thể tải xuống phiên bản 2019 của tập dữ liệu. Bạn sẽ cần tạo một tài khoản trên codalab để tải xuống dữ liệu. Lưu ý rằng tại thời điểm viết bài này, bạn sẽ cần bỏ qua cảnh báo "Kết nối không an toàn" khi truy cập codalab.

Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Các khóa được giám sát (Xem as_supervised doc ): None
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis/full (cấu hình mặc định)

Mô tả cấu hình : Phiên bản có độ phân giải đầy đủ của tập dữ liệu, bao gồm tất cả các khung, kể cả những khung không có nhãn.
Kích thước tập dữ liệu : 33.31 GiB
Chia tách :

Tách ra	ví dụ
`'test'`	343
`'train'`	2.238
`'validation'`	302

Cấu trúc tính năng :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Tài liệu tính năng :

Tính năng	Lớp	Hình dạng	Dtype
	Tính năngDict
metadata	Tính năngDict
siêu dữ liệu/chiều cao	tenxơ		int32
siêu dữ liệu/num_frames	tenxơ		int32
siêu dữ liệu/video_name	tenxơ		sợi dây
siêu dữ liệu/chiều rộng	tenxơ		int32
bài hát	Sự phối hợp
đường đi/khu vực	Trình tự (Tensor)	(Không có,)	phao32
bài hát/bbox	Trình tự (Tính năng BBox)	(Không, 4)	phao32
bài hát/danh mục	LớpNhãn		int64
bài hát/khung	Trình tự (Tensor)	(Không có,)	int32
bài hát/is_crowd	tenxơ		bool
bài hát/phân khúc	Video(Hình ảnh)	(Không, Không, Không, 1)	uint8
video	Video(Hình ảnh)	(Không, Không, Không, 3)	uint8

Ví dụ ( tfds.as_dataframe ):

youtube_vis/480_640_full

Mô tả cấu hình : Tất cả hình ảnh được thay đổi kích thước song tuyến tính thành 480 X 640 bao gồm tất cả các khung hình.
Kích thước tập dữ liệu : 130.02 GiB
Chia tách :

Tách ra	ví dụ
`'test'`	343
`'train'`	2.238
`'validation'`	302

Cấu trúc tính năng :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Tài liệu tính năng :

Tính năng	Lớp	Hình dạng	Dtype
	Tính năngDict
metadata	Tính năngDict
siêu dữ liệu/chiều cao	tenxơ		int32
siêu dữ liệu/num_frames	tenxơ		int32
siêu dữ liệu/video_name	tenxơ		sợi dây
siêu dữ liệu/chiều rộng	tenxơ		int32
bài hát	Sự phối hợp
đường đi/khu vực	Trình tự (Tensor)	(Không có,)	phao32
bài hát/bbox	Trình tự (Tính năng BBox)	(Không, 4)	phao32
bài hát/danh mục	LớpNhãn		int64
bài hát/khung	Trình tự (Tensor)	(Không có,)	int32
bài hát/is_crowd	tenxơ		bool
bài hát/phân đoạn	Video(Hình ảnh)	(Không, 480, 640, 1)	uint8
video	Video(Hình ảnh)	(Không, 480, 640, 3)	uint8

Ví dụ ( tfds.as_dataframe ):

youtube_vis/480_640_only_frames_with_labels

Mô tả cấu hình : Tất cả hình ảnh được thay đổi kích thước song tuyến tính thành 480 X 640 chỉ bao gồm các khung có nhãn.
Kích thước tập dữ liệu : 26.27 GiB
Chia tách :

Tách ra	ví dụ
`'test'`	343
`'train'`	2.238
`'validation'`	302

Cấu trúc tính năng :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Tài liệu tính năng :

Tính năng	Lớp	Hình dạng	Dtype
	Tính năngDict
metadata	Tính năngDict
siêu dữ liệu/chiều cao	tenxơ		int32
siêu dữ liệu/num_frames	tenxơ		int32
siêu dữ liệu/video_name	tenxơ		sợi dây
siêu dữ liệu/chiều rộng	tenxơ		int32
bài hát	Sự phối hợp
đường đi/khu vực	Trình tự (Tensor)	(Không có,)	phao32
bài hát/bbox	Trình tự (Tính năng BBox)	(Không, 4)	phao32
bài hát/danh mục	LớpNhãn		int64
bài hát/khung	Trình tự (Tensor)	(Không có,)	int32
bài hát/is_crowd	tenxơ		bool
bài hát/phân khúc	Video(Hình ảnh)	(Không, 480, 640, 1)	uint8
video	Video(Hình ảnh)	(Không, 480, 640, 3)	uint8

Ví dụ ( tfds.as_dataframe ):

youtube_vis/only_frames_with_labels

Mô tả cấu hình : Chỉ những hình ảnh có nhãn được bao gồm ở độ phân giải gốc của chúng.
Kích thước tập dữ liệu : 6.91 GiB
Chia tách :

Tách ra	ví dụ
`'test'`	343
`'train'`	2.238
`'validation'`	302

Cấu trúc tính năng :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Tài liệu tính năng :

Tính năng	Lớp	Hình dạng	Dtype
	Tính năngDict
metadata	Tính năngDict
siêu dữ liệu/chiều cao	tenxơ		int32
siêu dữ liệu/num_frames	tenxơ		int32
siêu dữ liệu/video_name	tenxơ		sợi dây
siêu dữ liệu/chiều rộng	tenxơ		int32
bài hát	Sự phối hợp
đường đi/khu vực	Trình tự (Tensor)	(Không có,)	phao32
bài hát/bbox	Trình tự (Tính năng BBox)	(Không, 4)	phao32
bài hát/danh mục	LớpNhãn		int64
bài hát/khung	Trình tự (Tensor)	(Không có,)	int32
bài hát/is_crowd	tenxơ		bool
bài hát/phân khúc	Video(Hình ảnh)	(Không, Không, Không, 1)	uint8
video	Video(Hình ảnh)	(Không, Không, Không, 3)	uint8

Ví dụ ( tfds.as_dataframe ):

youtube_vis/full_train_split

Mô tả cấu hình : Phiên bản có độ phân giải đầy đủ của tập dữ liệu, bao gồm tất cả các khung, kể cả những khung không có nhãn. Các phần tách val và test được tạo từ dữ liệu huấn luyện.
Kích thước tập dữ liệu : 26.09 GiB
Chia tách :

Tách ra	ví dụ
`'test'`	200
`'train'`	1.838
`'validation'`	200

Cấu trúc tính năng :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Tài liệu tính năng :

Tính năng	Lớp	Hình dạng	Dtype
	Tính năngDict
metadata	Tính năngDict
siêu dữ liệu/chiều cao	tenxơ		int32
siêu dữ liệu/num_frames	tenxơ		int32
siêu dữ liệu/video_name	tenxơ		sợi dây
siêu dữ liệu/chiều rộng	tenxơ		int32
bài hát	Sự phối hợp
đường đi/khu vực	Trình tự (Tensor)	(Không có,)	phao32
bài hát/bbox	Trình tự (Tính năng BBox)	(Không, 4)	phao32
bài hát/danh mục	LớpNhãn		int64
bài hát/khung	Trình tự (Tensor)	(Không có,)	int32
bài hát/is_crowd	tenxơ		bool
bài hát/phân đoạn	Video(Hình ảnh)	(Không, Không, Không, 1)	uint8
video	Video(Hình ảnh)	(Không, Không, Không, 3)	uint8

Ví dụ ( tfds.as_dataframe ):

youtube_vis/480_640_full_train_split

Mô tả cấu hình : Tất cả hình ảnh được thay đổi kích thước song tuyến tính thành 480 X 640 bao gồm tất cả các khung hình. Các phần tách val và test được tạo từ dữ liệu huấn luyện.
Kích thước tập dữ liệu : 101.57 GiB
Chia tách :

Tách ra	ví dụ
`'test'`	200
`'train'`	1.838
`'validation'`	200

Cấu trúc tính năng :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Tài liệu tính năng :

Tính năng	Lớp	Hình dạng	Dtype
	Tính năngDict
metadata	Tính năngDict
siêu dữ liệu/chiều cao	tenxơ		int32
siêu dữ liệu/num_frames	tenxơ		int32
siêu dữ liệu/video_name	tenxơ		sợi dây
siêu dữ liệu/chiều rộng	tenxơ		int32
bài hát	Sự phối hợp
đường đi/khu vực	Trình tự (Tensor)	(Không có,)	phao32
bài hát/bbox	Trình tự (Tính năng BBox)	(Không, 4)	phao32
bài hát/danh mục	LớpNhãn		int64
bài hát/khung	Trình tự (Tensor)	(Không có,)	int32
bài hát/is_crowd	tenxơ		bool
bài hát/phân khúc	Video(Hình ảnh)	(Không, 480, 640, 1)	uint8
video	Video(Hình ảnh)	(Không, 480, 640, 3)	uint8

Ví dụ ( tfds.as_dataframe ):

youtube_vis/480_640_only_frames_with_labels_train_split

Mô tả cấu hình : Tất cả hình ảnh được thay đổi kích thước song tuyến tính thành 480 X 640 chỉ bao gồm các khung có nhãn. Các phần tách val và test được tạo từ dữ liệu huấn luyện.
Kích thước tập dữ liệu : 20.55 GiB
Chia tách :

Tách ra	ví dụ
`'test'`	200
`'train'`	1.838
`'validation'`	200

Cấu trúc tính năng :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Tài liệu tính năng :

Tính năng	Lớp	Hình dạng	Dtype
	Tính năngDict
metadata	Tính năngDict
siêu dữ liệu/chiều cao	tenxơ		int32
siêu dữ liệu/num_frames	tenxơ		int32
siêu dữ liệu/video_name	tenxơ		sợi dây
siêu dữ liệu/chiều rộng	tenxơ		int32
bài hát	Sự phối hợp
đường đi/khu vực	Trình tự (Tensor)	(Không có,)	phao32
bài hát/bbox	Trình tự (Tính năng BBox)	(Không, 4)	phao32
bài hát/danh mục	LớpNhãn		int64
bài hát/khung	Trình tự (Tensor)	(Không có,)	int32
bài hát/is_crowd	tenxơ		bool
bài hát/phân khúc	Video(Hình ảnh)	(Không, 480, 640, 1)	uint8
video	Video(Hình ảnh)	(Không, 480, 640, 3)	uint8

Ví dụ ( tfds.as_dataframe ):

youtube_vis/only_frames_with_labels_train_split

Mô tả cấu hình : Chỉ những hình ảnh có nhãn được bao gồm ở độ phân giải gốc của chúng. Các phần tách val và test được tạo từ dữ liệu huấn luyện.
Kích thước tập dữ liệu : 5.46 GiB
Chia tách :

Tách ra	ví dụ
`'test'`	200
`'train'`	1.838
`'validation'`	200

Cấu trúc tính năng :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Tài liệu tính năng :

Tính năng	Lớp	Hình dạng	Dtype
	Tính năngDict
metadata	Tính năngDict
siêu dữ liệu/chiều cao	tenxơ		int32
siêu dữ liệu/num_frames	tenxơ		int32
siêu dữ liệu/video_name	tenxơ		sợi dây
siêu dữ liệu/chiều rộng	tenxơ		int32
bài hát	Sự phối hợp
đường đi/khu vực	Trình tự (Tensor)	(Không có,)	phao32
bài hát/bbox	Trình tự (Tính năng BBox)	(Không, 4)	phao32
bài hát/danh mục	LớpNhãn		int64
bài hát/khung	Trình tự (Tensor)	(Không có,)	int32
bài hát/is_crowd	tenxơ		bool
bài hát/phân đoạn	Video(Hình ảnh)	(Không, Không, Không, 1)	uint8
video	Video(Hình ảnh)	(Không, Không, Không, 3)	uint8

Ví dụ ( tfds.as_dataframe ):