youtube_vis

  • Mô tả :

Youtube-vis là tập dữ liệu phân đoạn phiên bản video. Nó chứa 2.883 video YouTube có độ phân giải cao, bộ nhãn danh mục trên mỗi pixel bao gồm 40 đối tượng phổ biến như người, động vật và xe cộ, 4.883 trường hợp video độc đáo và 131 nghìn chú thích thủ công chất lượng cao.

Bộ dữ liệu YouTube-VIS được chia thành 2.238 video đào tạo, 302 video xác thực và 343 video thử nghiệm.

Không có tệp nào bị xóa hoặc thay đổi trong quá trình tiền xử lý.

  • Tài liệu bổ sung : Khám phá trên giấy tờ với mã

  • Trang chủ : https://youtube-vos.org/dataset/vis/

  • Mã nguồn : tfds.video.youtube_vis.YoutubeVis

  • Phiên bản :

    • 1.0.0 (mặc định): Bản phát hành đầu tiên.
  • Kích thước tải xuống : Unknown size

  • Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
    Vui lòng tải xuống tất cả các tệp cho phiên bản 2019 của bộ dữ liệu (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) từ trang web youtube-vis và di chuyển chúng đến ~/tensorflow_datasets/ tải xuống/thủ công/.

Lưu ý rằng trang đích của tập dữ liệu được đặt tại https://youtube-vos.org/dataset/vis/ và sau đó trang này sẽ chuyển hướng bạn đến một trang trên https://competitions.codalab.org nơi bạn có thể tải xuống phiên bản 2019 của tập dữ liệu. Bạn sẽ cần tạo một tài khoản trên codalab để tải xuống dữ liệu. Lưu ý rằng tại thời điểm viết bài này, bạn sẽ cần bỏ qua cảnh báo "Kết nối không an toàn" khi truy cập codalab.

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis/full (cấu hình mặc định)

  • Mô tả cấu hình : Phiên bản có độ phân giải đầy đủ của tập dữ liệu, bao gồm tất cả các khung, kể cả những khung không có nhãn.

  • Kích thước tập dữ liệu : 33.31 GiB

  • Chia tách :

Tách ra ví dụ
'test' 343
'train' 2.238
'validation' 302
  • Cấu trúc tính năng :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
metadata Tính năngDict
siêu dữ liệu/chiều cao tenxơ int32
siêu dữ liệu/num_frames tenxơ int32
siêu dữ liệu/video_name tenxơ sợi dây
siêu dữ liệu/chiều rộng tenxơ int32
bài hát Sự phối hợp
đường đi/khu vực Trình tự (Tensor) (Không có,) phao32
bài hát/bbox Trình tự (Tính năng BBox) (Không, 4) phao32
bài hát/danh mục LớpNhãn int64
bài hát/khung Trình tự (Tensor) (Không có,) int32
bài hát/is_crowd tenxơ bool
bài hát/phân khúc Video(Hình ảnh) (Không, Không, Không, 1) uint8
video Video(Hình ảnh) (Không, Không, Không, 3) uint8

youtube_vis/480_640_full

  • Mô tả cấu hình : Tất cả hình ảnh được thay đổi kích thước song tuyến tính thành 480 X 640 bao gồm tất cả các khung hình.

  • Kích thước tập dữ liệu : 130.02 GiB

  • Chia tách :

Tách ra ví dụ
'test' 343
'train' 2.238
'validation' 302
  • Cấu trúc tính năng :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
metadata Tính năngDict
siêu dữ liệu/chiều cao tenxơ int32
siêu dữ liệu/num_frames tenxơ int32
siêu dữ liệu/video_name tenxơ sợi dây
siêu dữ liệu/chiều rộng tenxơ int32
bài hát Sự phối hợp
đường đi/khu vực Trình tự (Tensor) (Không có,) phao32
bài hát/bbox Trình tự (Tính năng BBox) (Không, 4) phao32
bài hát/danh mục LớpNhãn int64
bài hát/khung Trình tự (Tensor) (Không có,) int32
bài hát/is_crowd tenxơ bool
bài hát/phân đoạn Video(Hình ảnh) (Không, 480, 640, 1) uint8
video Video(Hình ảnh) (Không, 480, 640, 3) uint8

youtube_vis/480_640_only_frames_with_labels

  • Mô tả cấu hình : Tất cả hình ảnh được thay đổi kích thước song tuyến tính thành 480 X 640 chỉ bao gồm các khung có nhãn.

  • Kích thước tập dữ liệu : 26.27 GiB

  • Chia tách :

Tách ra ví dụ
'test' 343
'train' 2.238
'validation' 302
  • Cấu trúc tính năng :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
metadata Tính năngDict
siêu dữ liệu/chiều cao tenxơ int32
siêu dữ liệu/num_frames tenxơ int32
siêu dữ liệu/video_name tenxơ sợi dây
siêu dữ liệu/chiều rộng tenxơ int32
bài hát Sự phối hợp
đường đi/khu vực Trình tự (Tensor) (Không có,) phao32
bài hát/bbox Trình tự (Tính năng BBox) (Không, 4) phao32
bài hát/danh mục LớpNhãn int64
bài hát/khung Trình tự (Tensor) (Không có,) int32
bài hát/is_crowd tenxơ bool
bài hát/phân khúc Video(Hình ảnh) (Không, 480, 640, 1) uint8
video Video(Hình ảnh) (Không, 480, 640, 3) uint8

youtube_vis/only_frames_with_labels

  • Mô tả cấu hình : Chỉ những hình ảnh có nhãn được bao gồm ở độ phân giải gốc của chúng.

  • Kích thước tập dữ liệu : 6.91 GiB

  • Chia tách :

Tách ra ví dụ
'test' 343
'train' 2.238
'validation' 302
  • Cấu trúc tính năng :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
metadata Tính năngDict
siêu dữ liệu/chiều cao tenxơ int32
siêu dữ liệu/num_frames tenxơ int32
siêu dữ liệu/video_name tenxơ sợi dây
siêu dữ liệu/chiều rộng tenxơ int32
bài hát Sự phối hợp
đường đi/khu vực Trình tự (Tensor) (Không có,) phao32
bài hát/bbox Trình tự (Tính năng BBox) (Không, 4) phao32
bài hát/danh mục LớpNhãn int64
bài hát/khung Trình tự (Tensor) (Không có,) int32
bài hát/is_crowd tenxơ bool
bài hát/phân khúc Video(Hình ảnh) (Không, Không, Không, 1) uint8
video Video(Hình ảnh) (Không, Không, Không, 3) uint8

youtube_vis/full_train_split

  • Mô tả cấu hình : Phiên bản có độ phân giải đầy đủ của tập dữ liệu, bao gồm tất cả các khung, kể cả những khung không có nhãn. Các phần tách val và test được tạo từ dữ liệu huấn luyện.

  • Kích thước tập dữ liệu : 26.09 GiB

  • Chia tách :

Tách ra ví dụ
'test' 200
'train' 1.838
'validation' 200
  • Cấu trúc tính năng :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
metadata Tính năngDict
siêu dữ liệu/chiều cao tenxơ int32
siêu dữ liệu/num_frames tenxơ int32
siêu dữ liệu/video_name tenxơ sợi dây
siêu dữ liệu/chiều rộng tenxơ int32
bài hát Sự phối hợp
đường đi/khu vực Trình tự (Tensor) (Không có,) phao32
bài hát/bbox Trình tự (Tính năng BBox) (Không, 4) phao32
bài hát/danh mục LớpNhãn int64
bài hát/khung Trình tự (Tensor) (Không có,) int32
bài hát/is_crowd tenxơ bool
bài hát/phân đoạn Video(Hình ảnh) (Không, Không, Không, 1) uint8
video Video(Hình ảnh) (Không, Không, Không, 3) uint8

youtube_vis/480_640_full_train_split

  • Mô tả cấu hình : Tất cả hình ảnh được thay đổi kích thước song tuyến tính thành 480 X 640 bao gồm tất cả các khung hình. Các phần tách val và test được tạo từ dữ liệu huấn luyện.

  • Kích thước tập dữ liệu : 101.57 GiB

  • Chia tách :

Tách ra ví dụ
'test' 200
'train' 1.838
'validation' 200
  • Cấu trúc tính năng :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
metadata Tính năngDict
siêu dữ liệu/chiều cao tenxơ int32
siêu dữ liệu/num_frames tenxơ int32
siêu dữ liệu/video_name tenxơ sợi dây
siêu dữ liệu/chiều rộng tenxơ int32
bài hát Sự phối hợp
đường đi/khu vực Trình tự (Tensor) (Không có,) phao32
bài hát/bbox Trình tự (Tính năng BBox) (Không, 4) phao32
bài hát/danh mục LớpNhãn int64
bài hát/khung Trình tự (Tensor) (Không có,) int32
bài hát/is_crowd tenxơ bool
bài hát/phân khúc Video(Hình ảnh) (Không, 480, 640, 1) uint8
video Video(Hình ảnh) (Không, 480, 640, 3) uint8

youtube_vis/480_640_only_frames_with_labels_train_split

  • Mô tả cấu hình : Tất cả hình ảnh được thay đổi kích thước song tuyến tính thành 480 X 640 chỉ bao gồm các khung có nhãn. Các phần tách val và test được tạo từ dữ liệu huấn luyện.

  • Kích thước tập dữ liệu : 20.55 GiB

  • Chia tách :

Tách ra ví dụ
'test' 200
'train' 1.838
'validation' 200
  • Cấu trúc tính năng :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
metadata Tính năngDict
siêu dữ liệu/chiều cao tenxơ int32
siêu dữ liệu/num_frames tenxơ int32
siêu dữ liệu/video_name tenxơ sợi dây
siêu dữ liệu/chiều rộng tenxơ int32
bài hát Sự phối hợp
đường đi/khu vực Trình tự (Tensor) (Không có,) phao32
bài hát/bbox Trình tự (Tính năng BBox) (Không, 4) phao32
bài hát/danh mục LớpNhãn int64
bài hát/khung Trình tự (Tensor) (Không có,) int32
bài hát/is_crowd tenxơ bool
bài hát/phân khúc Video(Hình ảnh) (Không, 480, 640, 1) uint8
video Video(Hình ảnh) (Không, 480, 640, 3) uint8

youtube_vis/only_frames_with_labels_train_split

  • Mô tả cấu hình : Chỉ những hình ảnh có nhãn được bao gồm ở độ phân giải gốc của chúng. Các phần tách val và test được tạo từ dữ liệu huấn luyện.

  • Kích thước tập dữ liệu : 5.46 GiB

  • Chia tách :

Tách ra ví dụ
'test' 200
'train' 1.838
'validation' 200
  • Cấu trúc tính năng :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
metadata Tính năngDict
siêu dữ liệu/chiều cao tenxơ int32
siêu dữ liệu/num_frames tenxơ int32
siêu dữ liệu/video_name tenxơ sợi dây
siêu dữ liệu/chiều rộng tenxơ int32
bài hát Sự phối hợp
đường đi/khu vực Trình tự (Tensor) (Không có,) phao32
bài hát/bbox Trình tự (Tính năng BBox) (Không, 4) phao32
bài hát/danh mục LớpNhãn int64
bài hát/khung Trình tự (Tensor) (Không có,) int32
bài hát/is_crowd tenxơ bool
bài hát/phân đoạn Video(Hình ảnh) (Không, Không, Không, 1) uint8
video Video(Hình ảnh) (Không, Không, Không, 3) uint8