youtube_vis

  • توضیحات :

Youtube-vis یک مجموعه داده تقسیم‌بندی نمونه ویدیویی است. این شامل 2883 ویدیوی یوتیوب با وضوح بالا، مجموعه برچسب دسته‌بندی در هر پیکسل شامل 40 شیء معمولی مانند شخص، حیوانات و وسایل نقلیه، 4883 نمونه ویدیوی منحصربه‌فرد و 131 هزار حاشیه‌نویسی دستی با کیفیت بالا است.

مجموعه داده YouTube-VIS به 2238 ویدیو آموزشی، 302 ویدیوی تأیید اعتبار و 343 ویدیوی آزمایشی تقسیم شده است.

هیچ فایلی در طول پیش پردازش حذف یا تغییر داده نشد.

  • اسناد اضافی : کاوش در کاغذها با کد

  • صفحه اصلی : https://youtube-vos.org/dataset/vis/

  • کد منبع : tfds.video.youtube_vis.YoutubeVis

  • نسخه ها :

    • 1.0.0 (پیش فرض): انتشار اولیه.
  • اندازه دانلود : Unknown size

  • دستورالعمل‌های دانلود دستی : این مجموعه داده از شما می‌خواهد که داده‌های منبع را به صورت دستی در download_config.manual_dir (پیش‌فرض ~/tensorflow_datasets/downloads/manual/ ):
    لطفاً همه فایل‌های نسخه 2019 مجموعه داده (test_all_frames.zip، test.json، train_all_frames.zip، train.json، valid_all_frames.zip، valid.json) را از وب‌سایت youtube-vis دانلود کنید و آنها را به ~/tensorflow_datasets/ منتقل کنید. دانلودها/دستی/.

توجه داشته باشید که صفحه فرود مجموعه داده در https://youtube-vos.org/dataset/vis/ واقع شده است و سپس شما را به صفحه ای در https://competitions.codalab.org هدایت می کند که در آنجا می توانید نسخه 2019 را دانلود کنید. از مجموعه داده برای دانلود داده ها باید یک حساب کاربری در codalab ایجاد کنید. توجه داشته باشید که در زمان نوشتن این مطلب، هنگام دسترسی به کدالاب باید از اخطار «اتصال امن نیست» عبور کنید.

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis/full (پیکربندی پیش‌فرض)

  • توضیحات پیکربندی : نسخه با وضوح کامل مجموعه داده، با تمام فریم‌ها، از جمله فریم‌های بدون برچسب، گنجانده شده است.

  • حجم مجموعه داده : 33.31 GiB

  • تقسیم ها :

شکاف مثال ها
'test' 343
'train' 2238
'validation' 302
  • ساختار ویژگی :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
فراداده FeaturesDict
ابرداده/ارتفاع تانسور int32
متادیتا/تعداد_فریم ها تانسور int32
فراداده/نام_ویدئو تانسور رشته
فراداده/عرض تانسور int32
آهنگ های توالی
مسیرها/مناطق دنباله (تنسور) (هیچ یک،) float32
آهنگ/bboxes دنباله (BoxFeature) (هیچ، 4) float32
آهنگ / دسته ClassLabel int64
آهنگ/قاب دنباله (تنسور) (هیچ یک،) int32
tracks/is_crowd تانسور بوول
آهنگ/بخش بندی ویدئو (تصویر) (هیچ، هیچ، هیچ، 1) uint8
ویدئو ویدئو (تصویر) (هیچ، هیچ، هیچ، 3) uint8

youtube_vis/480_640_full

  • توضیحات پیکربندی : همه تصاویر به صورت دوخطی به 480 در 640 با تمام فریم ها تغییر داده شده اند.

  • حجم مجموعه داده : 130.02 GiB

  • تقسیم ها :

شکاف مثال ها
'test' 343
'train' 2238
'validation' 302
  • ساختار ویژگی :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
فراداده FeaturesDict
ابرداده/ارتفاع تانسور int32
متادیتا/تعداد_فریم ها تانسور int32
فراداده/نام_ویدئو تانسور رشته
فراداده/عرض تانسور int32
آهنگ های توالی
مسیرها/مناطق دنباله (تنسور) (هیچ یک،) float32
آهنگ/bboxes دنباله (BoxFeature) (هیچ، 4) float32
آهنگ / دسته ClassLabel int64
آهنگ/قاب دنباله (تنسور) (هیچ یک،) int32
tracks/is_crowd تانسور بوول
آهنگ/بخش بندی ویدئو (تصویر) (هیچ، 480، 640، 1) uint8
ویدئو ویدئو (تصویر) (هیچ، 480، 640، 3) uint8

youtube_vis/480_640_only_frames_with_labels

  • توضیحات پیکربندی : همه تصاویر به صورت دوخطی به 480 در 640 تغییر اندازه داده اند و فقط فریم هایی با برچسب در آن گنجانده شده است.

  • حجم مجموعه داده : 26.27 GiB

  • تقسیم ها :

شکاف مثال ها
'test' 343
'train' 2238
'validation' 302
  • ساختار ویژگی :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
فراداده FeaturesDict
ابرداده/ارتفاع تانسور int32
متادیتا/تعداد_فریم ها تانسور int32
فراداده/نام_ویدئو تانسور رشته
فراداده/عرض تانسور int32
آهنگ های توالی
مسیرها/مناطق دنباله (تنسور) (هیچ یک،) float32
آهنگ/bboxes دنباله (BoxFeature) (هیچ، 4) float32
آهنگ / دسته ClassLabel int64
آهنگ/قاب دنباله (تنسور) (هیچ یک،) int32
tracks/is_crowd تانسور بوول
آهنگ/بخش بندی ویدئو (تصویر) (هیچ، 480، 640، 1) uint8
ویدئو ویدئو (تصویر) (هیچ، 480، 640، 3) uint8

youtube_vis/only_frames_with_labels

  • توضیحات پیکربندی : فقط تصاویری که دارای برچسب‌هایی با وضوح اصلی هستند.

  • حجم مجموعه داده : 6.91 GiB

  • تقسیم ها :

شکاف مثال ها
'test' 343
'train' 2238
'validation' 302
  • ساختار ویژگی :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
فراداده FeaturesDict
ابرداده/ارتفاع تانسور int32
متادیتا/تعداد_فریم ها تانسور int32
فراداده/نام_ویدئو تانسور رشته
فراداده/عرض تانسور int32
آهنگ های توالی
مسیرها/مناطق دنباله (تنسور) (هیچ یک،) float32
آهنگ/bboxes دنباله (BoxFeature) (هیچ، 4) float32
آهنگ / دسته ClassLabel int64
آهنگ/قاب دنباله (تنسور) (هیچ یک،) int32
tracks/is_crowd تانسور بوول
آهنگ/بخش بندی ویدئو (تصویر) (هیچ، هیچ، هیچ، 1) uint8
ویدئو ویدئو (تصویر) (هیچ، هیچ، هیچ، 3) uint8

youtube_vis/full_train_split

  • توضیحات پیکربندی : نسخه با وضوح کامل مجموعه داده، با تمام فریم‌ها، از جمله فریم‌های بدون برچسب، گنجانده شده است. تقسیم‌های val و test از داده‌های آموزشی ساخته می‌شوند.

  • حجم مجموعه داده : 26.09 GiB

  • تقسیم ها :

شکاف مثال ها
'test' 200
'train' 1,838
'validation' 200
  • ساختار ویژگی :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
فراداده FeaturesDict
ابرداده/ارتفاع تانسور int32
متادیتا/تعداد_فریم ها تانسور int32
فراداده/نام_ویدئو تانسور رشته
فراداده/عرض تانسور int32
آهنگ های توالی
مسیرها/مناطق دنباله (تنسور) (هیچ یک،) float32
آهنگ/bboxes دنباله (BoxFeature) (هیچ، 4) float32
آهنگ / دسته ClassLabel int64
آهنگ/قاب دنباله (تنسور) (هیچ یک،) int32
tracks/is_crowd تانسور بوول
آهنگ/بخش بندی ویدئو (تصویر) (هیچ، هیچ، هیچ، 1) uint8
ویدئو ویدئو (تصویر) (هیچ، هیچ، هیچ، 3) uint8

youtube_vis/480_640_full_train_split

  • توضیحات پیکربندی : همه تصاویر به صورت دوخطی به 480 در 640 با تمام فریم ها تغییر داده شده اند. تقسیم‌های val و test از داده‌های آموزشی ساخته می‌شوند.

  • حجم مجموعه داده : 101.57 GiB

  • تقسیم ها :

شکاف مثال ها
'test' 200
'train' 1,838
'validation' 200
  • ساختار ویژگی :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
فراداده FeaturesDict
ابرداده/ارتفاع تانسور int32
متادیتا/تعداد_فریم ها تانسور int32
فراداده/نام_ویدئو تانسور رشته
فراداده/عرض تانسور int32
آهنگ های توالی
مسیرها/مناطق دنباله (تنسور) (هیچ یک،) float32
آهنگ/bboxes دنباله (BoxFeature) (هیچ، 4) float32
آهنگ / دسته ClassLabel int64
آهنگ/قاب دنباله (تنسور) (هیچ یک،) int32
tracks/is_crowd تانسور بوول
آهنگ/بخش بندی ویدئو (تصویر) (هیچ، 480، 640، 1) uint8
ویدئو ویدئو (تصویر) (هیچ، 480، 640، 3) uint8

youtube_vis/480_640_only_frames_with_labels_train_split

  • توضیحات پیکربندی : همه تصاویر به صورت دوخطی به 480 در 640 تغییر اندازه داده اند و فقط فریم هایی با برچسب در آن گنجانده شده است. تقسیم‌های val و test از داده‌های آموزشی ساخته می‌شوند.

  • حجم مجموعه داده : 20.55 GiB

  • تقسیم ها :

شکاف مثال ها
'test' 200
'train' 1,838
'validation' 200
  • ساختار ویژگی :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
فراداده FeaturesDict
ابرداده/ارتفاع تانسور int32
متادیتا/تعداد_فریم ها تانسور int32
فراداده/نام_ویدئو تانسور رشته
فراداده/عرض تانسور int32
آهنگ های توالی
مسیرها/مناطق دنباله (تنسور) (هیچ یک،) float32
آهنگ/bboxes دنباله (BoxFeature) (هیچ، 4) float32
آهنگ / دسته ClassLabel int64
آهنگ/قاب دنباله (تنسور) (هیچ یک،) int32
tracks/is_crowd تانسور بوول
آهنگ/بخش بندی ویدئو (تصویر) (هیچ، 480، 640، 1) uint8
ویدئو ویدئو (تصویر) (هیچ، 480، 640، 3) uint8

youtube_vis/only_frames_with_labels_train_split

  • توضیحات پیکربندی : فقط تصاویری که دارای برچسب‌هایی با وضوح اصلی هستند. تقسیم‌های val و test از داده‌های آموزشی ساخته می‌شوند.

  • حجم مجموعه داده : 5.46 GiB

  • تقسیم ها :

شکاف مثال ها
'test' 200
'train' 1,838
'validation' 200
  • ساختار ویژگی :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
فراداده FeaturesDict
ابرداده/ارتفاع تانسور int32
متادیتا/تعداد_فریم ها تانسور int32
فراداده/نام_ویدئو تانسور رشته
فراداده/عرض تانسور int32
آهنگ های توالی
مسیرها/مناطق دنباله (تنسور) (هیچ یک،) float32
آهنگ/bboxes دنباله (BoxFeature) (هیچ، 4) float32
آهنگ / دسته ClassLabel int64
آهنگ/قاب دنباله (تنسور) (هیچ یک،) int32
tracks/is_crowd تانسور بوول
آهنگ/بخش بندی ویدئو (تصویر) (هیچ، هیچ، هیچ، 1) uint8
ویدئو ویدئو (تصویر) (هیچ، هیچ، هیچ، 3) uint8