- توضیحات :
Youtube-vis یک مجموعه داده تقسیمبندی نمونه ویدیویی است. این شامل 2883 ویدیوی یوتیوب با وضوح بالا، مجموعه برچسب دستهبندی در هر پیکسل شامل 40 شیء معمولی مانند شخص، حیوانات و وسایل نقلیه، 4883 نمونه ویدیوی منحصربهفرد و 131 هزار حاشیهنویسی دستی با کیفیت بالا است.
مجموعه داده YouTube-VIS به 2238 ویدیو آموزشی، 302 ویدیوی تأیید اعتبار و 343 ویدیوی آزمایشی تقسیم شده است.
هیچ فایلی در طول پیش پردازش حذف یا تغییر داده نشد.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://youtube-vos.org/dataset/vis/
کد منبع :
tfds.video.youtube_vis.YoutubeVis
نسخه ها :
-
1.0.0
(پیش فرض): انتشار اولیه.
-
اندازه دانلود :
Unknown size
دستورالعملهای دانلود دستی : این مجموعه داده از شما میخواهد که دادههای منبع را به صورت دستی در
download_config.manual_dir
(پیشفرض~/tensorflow_datasets/downloads/manual/
):
لطفاً همه فایلهای نسخه 2019 مجموعه داده (test_all_frames.zip، test.json، train_all_frames.zip، train.json، valid_all_frames.zip، valid.json) را از وبسایت youtube-vis دانلود کنید و آنها را به ~/tensorflow_datasets/ منتقل کنید. دانلودها/دستی/.
توجه داشته باشید که صفحه فرود مجموعه داده در https://youtube-vos.org/dataset/vis/ واقع شده است و سپس شما را به صفحه ای در https://competitions.codalab.org هدایت می کند که در آنجا می توانید نسخه 2019 را دانلود کنید. از مجموعه داده برای دانلود داده ها باید یک حساب کاربری در codalab ایجاد کنید. توجه داشته باشید که در زمان نوشتن این مطلب، هنگام دسترسی به کدالاب باید از اخطار «اتصال امن نیست» عبور کنید.
ذخیره خودکار ( اسناد ): خیر
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@article{DBLP:journals/corr/abs-1905-04804,
author = {Linjie Yang and
Yuchen Fan and
Ning Xu},
title = {Video Instance Segmentation},
journal = {CoRR},
volume = {abs/1905.04804},
year = {2019},
url = {http://arxiv.org/abs/1905.04804},
archivePrefix = {arXiv},
eprint = {1905.04804},
timestamp = {Tue, 28 May 2019 12:48:08 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
youtube_vis/full (پیکربندی پیشفرض)
توضیحات پیکربندی : نسخه با وضوح کامل مجموعه داده، با تمام فریمها، از جمله فریمهای بدون برچسب، گنجانده شده است.
حجم مجموعه داده :
33.31 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 343 |
'train' | 2238 |
'validation' | 302 |
- ساختار ویژگی :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
فراداده | FeaturesDict | |||
ابرداده/ارتفاع | تانسور | int32 | ||
متادیتا/تعداد_فریم ها | تانسور | int32 | ||
فراداده/نام_ویدئو | تانسور | رشته | ||
فراداده/عرض | تانسور | int32 | ||
آهنگ های | توالی | |||
مسیرها/مناطق | دنباله (تنسور) | (هیچ یک،) | float32 | |
آهنگ/bboxes | دنباله (BoxFeature) | (هیچ، 4) | float32 | |
آهنگ / دسته | ClassLabel | int64 | ||
آهنگ/قاب | دنباله (تنسور) | (هیچ یک،) | int32 | |
tracks/is_crowd | تانسور | بوول | ||
آهنگ/بخش بندی | ویدئو (تصویر) | (هیچ، هیچ، هیچ، 1) | uint8 | |
ویدئو | ویدئو (تصویر) | (هیچ، هیچ، هیچ، 3) | uint8 |
- مثالها ( tfds.as_dataframe ):
youtube_vis/480_640_full
توضیحات پیکربندی : همه تصاویر به صورت دوخطی به 480 در 640 با تمام فریم ها تغییر داده شده اند.
حجم مجموعه داده :
130.02 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 343 |
'train' | 2238 |
'validation' | 302 |
- ساختار ویژگی :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
فراداده | FeaturesDict | |||
ابرداده/ارتفاع | تانسور | int32 | ||
متادیتا/تعداد_فریم ها | تانسور | int32 | ||
فراداده/نام_ویدئو | تانسور | رشته | ||
فراداده/عرض | تانسور | int32 | ||
آهنگ های | توالی | |||
مسیرها/مناطق | دنباله (تنسور) | (هیچ یک،) | float32 | |
آهنگ/bboxes | دنباله (BoxFeature) | (هیچ، 4) | float32 | |
آهنگ / دسته | ClassLabel | int64 | ||
آهنگ/قاب | دنباله (تنسور) | (هیچ یک،) | int32 | |
tracks/is_crowd | تانسور | بوول | ||
آهنگ/بخش بندی | ویدئو (تصویر) | (هیچ، 480، 640، 1) | uint8 | |
ویدئو | ویدئو (تصویر) | (هیچ، 480، 640، 3) | uint8 |
- مثالها ( tfds.as_dataframe ):
youtube_vis/480_640_only_frames_with_labels
توضیحات پیکربندی : همه تصاویر به صورت دوخطی به 480 در 640 تغییر اندازه داده اند و فقط فریم هایی با برچسب در آن گنجانده شده است.
حجم مجموعه داده :
26.27 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 343 |
'train' | 2238 |
'validation' | 302 |
- ساختار ویژگی :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
فراداده | FeaturesDict | |||
ابرداده/ارتفاع | تانسور | int32 | ||
متادیتا/تعداد_فریم ها | تانسور | int32 | ||
فراداده/نام_ویدئو | تانسور | رشته | ||
فراداده/عرض | تانسور | int32 | ||
آهنگ های | توالی | |||
مسیرها/مناطق | دنباله (تنسور) | (هیچ یک،) | float32 | |
آهنگ/bboxes | دنباله (BoxFeature) | (هیچ، 4) | float32 | |
آهنگ / دسته | ClassLabel | int64 | ||
آهنگ/قاب | دنباله (تنسور) | (هیچ یک،) | int32 | |
tracks/is_crowd | تانسور | بوول | ||
آهنگ/بخش بندی | ویدئو (تصویر) | (هیچ، 480، 640، 1) | uint8 | |
ویدئو | ویدئو (تصویر) | (هیچ، 480، 640، 3) | uint8 |
- مثالها ( tfds.as_dataframe ):
youtube_vis/only_frames_with_labels
توضیحات پیکربندی : فقط تصاویری که دارای برچسبهایی با وضوح اصلی هستند.
حجم مجموعه داده :
6.91 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 343 |
'train' | 2238 |
'validation' | 302 |
- ساختار ویژگی :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
فراداده | FeaturesDict | |||
ابرداده/ارتفاع | تانسور | int32 | ||
متادیتا/تعداد_فریم ها | تانسور | int32 | ||
فراداده/نام_ویدئو | تانسور | رشته | ||
فراداده/عرض | تانسور | int32 | ||
آهنگ های | توالی | |||
مسیرها/مناطق | دنباله (تنسور) | (هیچ یک،) | float32 | |
آهنگ/bboxes | دنباله (BoxFeature) | (هیچ، 4) | float32 | |
آهنگ / دسته | ClassLabel | int64 | ||
آهنگ/قاب | دنباله (تنسور) | (هیچ یک،) | int32 | |
tracks/is_crowd | تانسور | بوول | ||
آهنگ/بخش بندی | ویدئو (تصویر) | (هیچ، هیچ، هیچ، 1) | uint8 | |
ویدئو | ویدئو (تصویر) | (هیچ، هیچ، هیچ، 3) | uint8 |
- مثالها ( tfds.as_dataframe ):
youtube_vis/full_train_split
توضیحات پیکربندی : نسخه با وضوح کامل مجموعه داده، با تمام فریمها، از جمله فریمهای بدون برچسب، گنجانده شده است. تقسیمهای val و test از دادههای آموزشی ساخته میشوند.
حجم مجموعه داده :
26.09 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 200 |
'train' | 1,838 |
'validation' | 200 |
- ساختار ویژگی :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
فراداده | FeaturesDict | |||
ابرداده/ارتفاع | تانسور | int32 | ||
متادیتا/تعداد_فریم ها | تانسور | int32 | ||
فراداده/نام_ویدئو | تانسور | رشته | ||
فراداده/عرض | تانسور | int32 | ||
آهنگ های | توالی | |||
مسیرها/مناطق | دنباله (تنسور) | (هیچ یک،) | float32 | |
آهنگ/bboxes | دنباله (BoxFeature) | (هیچ، 4) | float32 | |
آهنگ / دسته | ClassLabel | int64 | ||
آهنگ/قاب | دنباله (تنسور) | (هیچ یک،) | int32 | |
tracks/is_crowd | تانسور | بوول | ||
آهنگ/بخش بندی | ویدئو (تصویر) | (هیچ، هیچ، هیچ، 1) | uint8 | |
ویدئو | ویدئو (تصویر) | (هیچ، هیچ، هیچ، 3) | uint8 |
- مثالها ( tfds.as_dataframe ):
youtube_vis/480_640_full_train_split
توضیحات پیکربندی : همه تصاویر به صورت دوخطی به 480 در 640 با تمام فریم ها تغییر داده شده اند. تقسیمهای val و test از دادههای آموزشی ساخته میشوند.
حجم مجموعه داده :
101.57 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 200 |
'train' | 1,838 |
'validation' | 200 |
- ساختار ویژگی :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
فراداده | FeaturesDict | |||
ابرداده/ارتفاع | تانسور | int32 | ||
متادیتا/تعداد_فریم ها | تانسور | int32 | ||
فراداده/نام_ویدئو | تانسور | رشته | ||
فراداده/عرض | تانسور | int32 | ||
آهنگ های | توالی | |||
مسیرها/مناطق | دنباله (تنسور) | (هیچ یک،) | float32 | |
آهنگ/bboxes | دنباله (BoxFeature) | (هیچ، 4) | float32 | |
آهنگ / دسته | ClassLabel | int64 | ||
آهنگ/قاب | دنباله (تنسور) | (هیچ یک،) | int32 | |
tracks/is_crowd | تانسور | بوول | ||
آهنگ/بخش بندی | ویدئو (تصویر) | (هیچ، 480، 640، 1) | uint8 | |
ویدئو | ویدئو (تصویر) | (هیچ، 480، 640، 3) | uint8 |
- مثالها ( tfds.as_dataframe ):
youtube_vis/480_640_only_frames_with_labels_train_split
توضیحات پیکربندی : همه تصاویر به صورت دوخطی به 480 در 640 تغییر اندازه داده اند و فقط فریم هایی با برچسب در آن گنجانده شده است. تقسیمهای val و test از دادههای آموزشی ساخته میشوند.
حجم مجموعه داده :
20.55 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 200 |
'train' | 1,838 |
'validation' | 200 |
- ساختار ویژگی :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
فراداده | FeaturesDict | |||
ابرداده/ارتفاع | تانسور | int32 | ||
متادیتا/تعداد_فریم ها | تانسور | int32 | ||
فراداده/نام_ویدئو | تانسور | رشته | ||
فراداده/عرض | تانسور | int32 | ||
آهنگ های | توالی | |||
مسیرها/مناطق | دنباله (تنسور) | (هیچ یک،) | float32 | |
آهنگ/bboxes | دنباله (BoxFeature) | (هیچ، 4) | float32 | |
آهنگ / دسته | ClassLabel | int64 | ||
آهنگ/قاب | دنباله (تنسور) | (هیچ یک،) | int32 | |
tracks/is_crowd | تانسور | بوول | ||
آهنگ/بخش بندی | ویدئو (تصویر) | (هیچ، 480، 640، 1) | uint8 | |
ویدئو | ویدئو (تصویر) | (هیچ، 480، 640، 3) | uint8 |
- مثالها ( tfds.as_dataframe ):
youtube_vis/only_frames_with_labels_train_split
توضیحات پیکربندی : فقط تصاویری که دارای برچسبهایی با وضوح اصلی هستند. تقسیمهای val و test از دادههای آموزشی ساخته میشوند.
حجم مجموعه داده :
5.46 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 200 |
'train' | 1,838 |
'validation' | 200 |
- ساختار ویژگی :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
فراداده | FeaturesDict | |||
ابرداده/ارتفاع | تانسور | int32 | ||
متادیتا/تعداد_فریم ها | تانسور | int32 | ||
فراداده/نام_ویدئو | تانسور | رشته | ||
فراداده/عرض | تانسور | int32 | ||
آهنگ های | توالی | |||
مسیرها/مناطق | دنباله (تنسور) | (هیچ یک،) | float32 | |
آهنگ/bboxes | دنباله (BoxFeature) | (هیچ، 4) | float32 | |
آهنگ / دسته | ClassLabel | int64 | ||
آهنگ/قاب | دنباله (تنسور) | (هیچ یک،) | int32 | |
tracks/is_crowd | تانسور | بوول | ||
آهنگ/بخش بندی | ویدئو (تصویر) | (هیچ، هیچ، هیچ، 1) | uint8 | |
ویدئو | ویدئو (تصویر) | (هیچ، هیچ، هیچ، 3) | uint8 |
- مثالها ( tfds.as_dataframe ):