youtube_vis

  • বর্ণনা :

Youtube-vis হল একটি ভিডিও ইনস্ট্যান্স সেগমেন্টেশন ডেটাসেট। এতে 2,883টি উচ্চ-রেজোলিউশন ইউটিউব ভিডিও রয়েছে, একটি প্রতি-পিক্সেল বিভাগের লেবেল সেট রয়েছে যার মধ্যে 40টি সাধারণ বস্তু যেমন ব্যক্তি, প্রাণী এবং যানবাহন, 4,883টি অনন্য ভিডিও উদাহরণ এবং 131k উচ্চ-মানের ম্যানুয়াল টীকা রয়েছে৷

YouTube-VIS ডেটাসেটটি 2,238টি প্রশিক্ষণ ভিডিও, 302টি বৈধতা ভিডিও এবং 343টি পরীক্ষামূলক ভিডিওতে বিভক্ত।

প্রিপ্রসেসিংয়ের সময় কোনও ফাইল সরানো বা পরিবর্তন করা হয়নি।

  • অতিরিক্ত ডকুমেন্টেশন : কোড সহ কাগজপত্রে অন্বেষণ করুন

  • হোমপেজ : https://youtube-vos.org/dataset/vis/

  • সোর্স কোড : tfds.video.youtube_vis.YoutubeVis

  • সংস্করণ :

    • 1.0.0 (ডিফল্ট): প্রাথমিক প্রকাশ।
  • ডাউনলোড আকার : Unknown size

  • ম্যানুয়াল ডাউনলোডের নির্দেশাবলী : এই ডেটাসেটের জন্য আপনাকে ডাউনলোড_config.manual_dir-এ ম্যানুয়ালি উৎস ডেটা download_config.manual_dir করতে হবে ( ~/tensorflow_datasets/downloads/manual/ ডিফল্ট):
    অনুগ্রহ করে youtube-vis ওয়েবসাইট থেকে ডেটাসেটের 2019 সংস্করণের সমস্ত ফাইল (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) ডাউনলোড করুন এবং সেগুলিকে ~/tensorflow_datasets/ এ সরান ডাউনলোড/ম্যানুয়াল/।

মনে রাখবেন যে ডেটাসেট ল্যান্ডিং পৃষ্ঠাটি https://youtube-vos.org/dataset/vis/- এ অবস্থিত এবং এটি আপনাকে https ://competitions.codalab.org-এর একটি পৃষ্ঠায় পুনঃনির্দেশ করবে যেখানে আপনি 2019 সংস্করণ ডাউনলোড করতে পারবেন ডেটাসেটের। ডেটা ডাউনলোড করতে আপনাকে কোডাল্যাবে একটি অ্যাকাউন্ট তৈরি করতে হবে। মনে রাখবেন যে এটি লেখার সময়, কোডাল্যাব অ্যাক্সেস করার সময় আপনাকে "সংযোগ নিরাপদ নয়" সতর্কতা বাইপাস করতে হবে।

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis/full (ডিফল্ট কনফিগারেশন)

  • কনফিগারেশনের বিবরণ : ডেটাসেটের সম্পূর্ণ রেজোলিউশন সংস্করণ, সমস্ত ফ্রেম সহ, লেবেল ছাড়াই অন্তর্ভুক্ত।

  • ডেটাসেটের আকার : 33.31 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 343
'train' 2,238
'validation' 302
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
মেটাডেটা ফিচারসডিক্ট
মেটাডেটা/উচ্চতা টেনসর int32
মেটাডেটা/সংখ্যা_ফ্রেম টেনসর int32
মেটাডেটা/ভিডিও_নাম টেনসর স্ট্রিং
মেটাডেটা/প্রস্থ টেনসর int32
ট্র্যাক ক্রম
ট্র্যাক/ক্ষেত্র ক্রম (টেনসর) (কোনটিই নয়,) float32
ট্র্যাক/bboxes সিকোয়েন্স (BBoxFeature) (কোনটি নয়, 4) float32
ট্র্যাক/বিভাগ ক্লাসলেবেল int64
ট্র্যাক/ফ্রেম ক্রম (টেনসর) (কোনটিই নয়,) int32
ট্র্যাক/ইজ_ভিড় টেনসর bool
ট্র্যাক/সেগমেন্টেশন ভিডিও(ছবি) (কোনটিই নয়, কোনটিই নয়, 1) uint8
ভিডিও ভিডিও(ছবি) (কোনটিই নয়, কোনটিই নয়, 3) uint8

youtube_vis/480_640_full

  • কনফিগারেশনের বিবরণ : সমস্ত ছবিকে দ্বিরেখার আকারে 480 X 640 করা হয়েছে এবং সমস্ত ফ্রেম অন্তর্ভুক্ত করা হয়েছে।

  • ডেটাসেটের আকার : 130.02 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 343
'train' 2,238
'validation' 302
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
মেটাডেটা ফিচারসডিক্ট
মেটাডেটা/উচ্চতা টেনসর int32
মেটাডেটা/সংখ্যা_ফ্রেম টেনসর int32
মেটাডেটা/ভিডিও_নাম টেনসর স্ট্রিং
মেটাডেটা/প্রস্থ টেনসর int32
ট্র্যাক ক্রম
ট্র্যাক/ক্ষেত্র ক্রম (টেনসর) (কোনটিই নয়,) float32
ট্র্যাক/bboxes সিকোয়েন্স (BBoxFeature) (কোনটি নয়, 4) float32
ট্র্যাক/বিভাগ ক্লাসলেবেল int64
ট্র্যাক/ফ্রেম ক্রম (টেনসর) (কোনটিই নয়,) int32
ট্র্যাক/ইজ_ভিড় টেনসর bool
ট্র্যাক/সেগমেন্টেশন ভিডিও(ছবি) (কোনটি নয়, 480, 640, 1) uint8
ভিডিও ভিডিও(ছবি) (কোনটি নয়, 480, 640, 3) uint8

youtube_vis/480_640_only_frames_with_labels

  • কনফিগারেশনের বিবরণ : সমস্ত ছবি দ্বি-রেখার আকারে 480 X 640 এ রিসাইজ করা হয়েছে শুধুমাত্র লেবেল সহ ফ্রেমের সাথে।

  • ডেটাসেটের আকার : 26.27 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 343
'train' 2,238
'validation' 302
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
মেটাডেটা ফিচারসডিক্ট
মেটাডেটা/উচ্চতা টেনসর int32
মেটাডেটা/সংখ্যা_ফ্রেম টেনসর int32
মেটাডেটা/ভিডিও_নাম টেনসর স্ট্রিং
মেটাডেটা/প্রস্থ টেনসর int32
ট্র্যাক ক্রম
ট্র্যাক/ক্ষেত্র ক্রম (টেনসর) (কোনটিই নয়,) float32
ট্র্যাক/bboxes সিকোয়েন্স (BBoxFeature) (কোনটি নয়, 4) float32
ট্র্যাক/বিভাগ ক্লাসলেবেল int64
ট্র্যাক/ফ্রেম ক্রম (টেনসর) (কোনটিই নয়,) int32
ট্র্যাক/ইজ_ভিড় টেনসর bool
ট্র্যাক/সেগমেন্টেশন ভিডিও(ছবি) (কোনটি নয়, 480, 640, 1) uint8
ভিডিও ভিডিও(ছবি) (কোনটি নয়, 480, 640, 3) uint8

youtube_vis/only_frames_with_labels

  • কনফিগার বিবরণ : শুধুমাত্র লেবেল সহ ছবিগুলি তাদের নেটিভ রেজোলিউশনে অন্তর্ভুক্ত।

  • ডেটাসেটের আকার : 6.91 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 343
'train' 2,238
'validation' 302
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
মেটাডেটা ফিচারসডিক্ট
মেটাডেটা/উচ্চতা টেনসর int32
মেটাডেটা/সংখ্যা_ফ্রেম টেনসর int32
মেটাডেটা/ভিডিও_নাম টেনসর স্ট্রিং
মেটাডেটা/প্রস্থ টেনসর int32
ট্র্যাক ক্রম
ট্র্যাক/ক্ষেত্র ক্রম (টেনসর) (কোনটিই নয়,) float32
ট্র্যাক/bboxes সিকোয়েন্স (BBoxFeature) (কোনটি নয়, 4) float32
ট্র্যাক/বিভাগ ক্লাসলেবেল int64
ট্র্যাক/ফ্রেম ক্রম (টেনসর) (কোনটিই নয়,) int32
ট্র্যাক/ইজ_ভিড় টেনসর bool
ট্র্যাক/সেগমেন্টেশন ভিডিও(ছবি) (কোনটিই নয়, কোনটিই নয়, 1) uint8
ভিডিও ভিডিও(ছবি) (কোনটিই নয়, কোনটিই নয়, 3) uint8

youtube_vis/full_train_split

  • কনফিগারেশনের বিবরণ : ডেটাসেটের সম্পূর্ণ রেজোলিউশন সংস্করণ, সমস্ত ফ্রেম সহ, লেবেল ছাড়াই অন্তর্ভুক্ত। ভ্যাল এবং টেস্ট স্প্লিটগুলি প্রশিক্ষণের ডেটা থেকে তৈরি করা হয়।

  • ডেটাসেটের আকার : 26.09 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 200
'train' 1,838
'validation' 200
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
মেটাডেটা ফিচারসডিক্ট
মেটাডেটা/উচ্চতা টেনসর int32
মেটাডেটা/সংখ্যা_ফ্রেম টেনসর int32
মেটাডেটা/ভিডিও_নাম টেনসর স্ট্রিং
মেটাডেটা/প্রস্থ টেনসর int32
ট্র্যাক ক্রম
ট্র্যাক/ক্ষেত্র ক্রম (টেনসর) (কোনটিই নয়,) float32
ট্র্যাক/bboxes সিকোয়েন্স (BBoxFeature) (কোনটি নয়, 4) float32
ট্র্যাক/বিভাগ ক্লাসলেবেল int64
ট্র্যাক/ফ্রেম ক্রম (টেনসর) (কোনটিই নয়,) int32
ট্র্যাক/ইজ_ভিড় টেনসর bool
ট্র্যাক/সেগমেন্টেশন ভিডিও(ছবি) (কোনটিই নয়, কোনটিই নয়, 1) uint8
ভিডিও ভিডিও(ছবি) (কোনটিই নয়, কোনটিই নয়, 3) uint8

youtube_vis/480_640_full_train_split

  • কনফিগারেশনের বিবরণ : সমস্ত ছবিকে দ্বিরেখার আকারে 480 X 640 করা হয়েছে এবং সমস্ত ফ্রেম অন্তর্ভুক্ত করা হয়েছে। ভ্যাল এবং টেস্ট স্প্লিটগুলি প্রশিক্ষণের ডেটা থেকে তৈরি করা হয়।

  • ডেটাসেটের আকার : 101.57 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 200
'train' 1,838
'validation' 200
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
মেটাডেটা ফিচারসডিক্ট
মেটাডেটা/উচ্চতা টেনসর int32
মেটাডেটা/সংখ্যা_ফ্রেম টেনসর int32
মেটাডেটা/ভিডিও_নাম টেনসর স্ট্রিং
মেটাডেটা/প্রস্থ টেনসর int32
ট্র্যাক ক্রম
ট্র্যাক/ক্ষেত্র ক্রম (টেনসর) (কোনটিই নয়,) float32
ট্র্যাক/bboxes সিকোয়েন্স (BBoxFeature) (কোনটি নয়, 4) float32
ট্র্যাক/বিভাগ ক্লাসলেবেল int64
ট্র্যাক/ফ্রেম ক্রম (টেনসর) (কোনটিই নয়,) int32
ট্র্যাক/ইজ_ভিড় টেনসর bool
ট্র্যাক/সেগমেন্টেশন ভিডিও(ছবি) (কোনটি নয়, 480, 640, 1) uint8
ভিডিও ভিডিও(ছবি) (কোনটি নয়, 480, 640, 3) uint8

youtube_vis/480_640_only_frames_with_labels_train_split

  • কনফিগারেশনের বিবরণ : সমস্ত ছবি দ্বি-রেখার আকারে 480 X 640 এ রিসাইজ করা হয়েছে শুধুমাত্র লেবেল সহ ফ্রেমের সাথে। ভ্যাল এবং টেস্ট স্প্লিটগুলি প্রশিক্ষণের ডেটা থেকে তৈরি করা হয়।

  • ডেটাসেটের আকার : 20.55 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 200
'train' 1,838
'validation' 200
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
মেটাডেটা ফিচারসডিক্ট
মেটাডেটা/উচ্চতা টেনসর int32
মেটাডেটা/সংখ্যা_ফ্রেম টেনসর int32
মেটাডেটা/ভিডিও_নাম টেনসর স্ট্রিং
মেটাডেটা/প্রস্থ টেনসর int32
ট্র্যাক ক্রম
ট্র্যাক/ক্ষেত্র ক্রম (টেনসর) (কোনটিই নয়,) float32
ট্র্যাক/bboxes সিকোয়েন্স (BBoxFeature) (কোনটি নয়, 4) float32
ট্র্যাক/বিভাগ ক্লাসলেবেল int64
ট্র্যাক/ফ্রেম ক্রম (টেনসর) (কোনটিই নয়,) int32
ট্র্যাক/ইজ_ভিড় টেনসর bool
ট্র্যাক/সেগমেন্টেশন ভিডিও(ছবি) (কোনটি নয়, 480, 640, 1) uint8
ভিডিও ভিডিও(ছবি) (কোনটি নয়, 480, 640, 3) uint8

youtube_vis/only_frames_with_labels_train_split

  • কনফিগার বিবরণ : শুধুমাত্র লেবেল সহ ছবিগুলি তাদের নেটিভ রেজোলিউশনে অন্তর্ভুক্ত। ভ্যাল এবং টেস্ট স্প্লিটগুলি প্রশিক্ষণের ডেটা থেকে তৈরি করা হয়।

  • ডেটাসেটের আকার : 5.46 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 200
'train' 1,838
'validation' 200
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
মেটাডেটা ফিচারসডিক্ট
মেটাডেটা/উচ্চতা টেনসর int32
মেটাডেটা/সংখ্যা_ফ্রেম টেনসর int32
মেটাডেটা/ভিডিও_নাম টেনসর স্ট্রিং
মেটাডেটা/প্রস্থ টেনসর int32
ট্র্যাক ক্রম
ট্র্যাক/ক্ষেত্র ক্রম (টেনসর) (কোনটিই নয়,) float32
ট্র্যাক/bboxes সিকোয়েন্স (BBoxFeature) (কোনটি নয়, 4) float32
ট্র্যাক/বিভাগ ক্লাসলেবেল int64
ট্র্যাক/ফ্রেম ক্রম (টেনসর) (কোনটিই নয়,) int32
ট্র্যাক/ইজ_ভিড় টেনসর bool
ট্র্যাক/সেগমেন্টেশন ভিডিও(ছবি) (কোনটিই নয়, কোনটিই নয়, 1) uint8
ভিডিও ভিডিও(ছবি) (কোনটিই নয়, কোনটিই নয়, 3) uint8