youtube_vis

  • Mô tả:

Youtube-vis là một tập dữ liệu phân đoạn phiên bản video. Nó chứa 2.883 video YouTube có độ phân giải cao, bộ nhãn danh mục trên mỗi pixel bao gồm 40 đối tượng phổ biến như người, động vật và xe cộ, 4.883 phiên bản video độc đáo và 131k chú thích thủ công chất lượng cao.

Tập dữ liệu YouTube-VIS được chia thành 2.238 video đào tạo, 302 video xác thực và 343 video thử nghiệm.

Không có tệp nào bị xóa hoặc thay đổi trong quá trình xử lý trước.

  • Trang chủ: https://youtube-vos.org/dataset/vis/

  • Source code: tfds.video.youtube_vis.YoutubeVis

  • phiên bản:

    • 1.0.0 (mặc định): Phiên bản đầu tiên.
  • Dung lượng tải về: Unknown size

  • Hướng dẫn tải về Hướng dẫn sử dụng: Bộ dữ liệu này đòi hỏi bạn phải tải về dữ liệu nguồn bằng tay vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
    Vui lòng tải xuống tất cả các tệp cho phiên bản 2019 của tập dữ liệu (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) từ trang web youtube-vis và chuyển chúng sang ~ / tensorflow_datasets / tải xuống / hướng dẫn sử dụng /.

Lưu ý rằng các trang dữ liệu hạ cánh tọa lạc tại https://youtube-vos.org/dataset/vis/, và sau đó nó sẽ chuyển hướng bạn đến một trang trên https://competitions.codalab.org nơi bạn có thể tải về phiên bản 2019 của tập dữ liệu. Bạn sẽ cần tạo một tài khoản trên codalab để tải xuống dữ liệu. Lưu ý rằng tại thời điểm viết bài này, bạn sẽ cần phải bỏ qua cảnh báo "Kết nối không an toàn" khi truy cập codalab.

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis / full (cấu hình mặc định)

  • Config Mô tả: Phiên bản có độ phân giải đầy đủ của tập dữ liệu, với tất cả các khung, bao gồm cả những người không có nhãn, bao gồm.

  • Kích thước tập dữ liệu: 33.31 GiB

  • tách:

Tách ra Các ví dụ
'test' 343
'train' 2.238
'validation' 302
  • Các tính năng:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})

youtube_vis / 480_640_full

  • Config mô tả: Tất cả các hình ảnh được bilinearly thay đổi kích cỡ để 480 X 640 với tất cả các khung bao gồm.

  • Kích thước tập dữ liệu: 130.02 GiB

  • tách:

Tách ra Các ví dụ
'test' 343
'train' 2.238
'validation' 302
  • Các tính năng:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis / 480_640_only_frames_with_labels

  • Config mô tả: Tất cả các hình ảnh được bilinearly thay đổi kích cỡ để 480 X 640 với chỉ khung với nhãn bao gồm.

  • Kích thước tập dữ liệu: 26.27 GiB

  • tách:

Tách ra Các ví dụ
'test' 343
'train' 2.238
'validation' 302
  • Các tính năng:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis / only_frames_with_labels

  • Config mô tả: Chỉ những hình ảnh với các nhãn bao gồm ở độ phân giải mẹ đẻ của họ.

  • Kích thước tập dữ liệu: 6.91 GiB

  • tách:

Tách ra Các ví dụ
'test' 343
'train' 2.238
'validation' 302
  • Các tính năng:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})

youtube_vis / full_train_split

  • Config Mô tả: Phiên bản có độ phân giải đầy đủ của tập dữ liệu, với tất cả các khung, bao gồm cả những người không có nhãn, bao gồm. Các phần tách val và kiểm tra được tạo ra từ dữ liệu đào tạo.

  • Kích thước tập dữ liệu: 26.09 GiB

  • tách:

Tách ra Các ví dụ
'test' 200
'train' 1.838
'validation' 200
  • Các tính năng:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})

youtube_vis / 480_640_full_train_split

  • Config mô tả: Tất cả các hình ảnh được bilinearly thay đổi kích cỡ để 480 X 640 với tất cả các khung bao gồm. Các phần tách val và kiểm tra được tạo ra từ dữ liệu đào tạo.

  • Kích thước tập dữ liệu: 101.57 GiB

  • tách:

Tách ra Các ví dụ
'test' 200
'train' 1.838
'validation' 200
  • Các tính năng:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis / 480_640_only_frames_with_labels_train_split

  • Config mô tả: Tất cả các hình ảnh được bilinearly thay đổi kích cỡ để 480 X 640 với chỉ khung với nhãn bao gồm. Các phần tách val và kiểm tra được tạo ra từ dữ liệu đào tạo.

  • Kích thước tập dữ liệu: 20.55 GiB

  • tách:

Tách ra Các ví dụ
'test' 200
'train' 1.838
'validation' 200
  • Các tính năng:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis / only_frames_with_labels_train_split

  • Config mô tả: Chỉ những hình ảnh với các nhãn bao gồm ở độ phân giải mẹ đẻ của họ. Các phần tách val và kiểm tra được tạo ra từ dữ liệu đào tạo.

  • Kích thước tập dữ liệu: 5.46 GiB

  • tách:

Tách ra Các ví dụ
'test' 200
'train' 1.838
'validation' 200
  • Các tính năng:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})