تاو

  • وصف :

مجموعة بيانات TAO عبارة عن مجموعة بيانات كبيرة للكشف عن كائنات الفيديو تتكون من 2907 مقاطع فيديو عالية الدقة و833 فئة كائنات. لاحظ أن مجموعة البيانات هذه تتطلب ما لا يقل عن 300 جيجابايت من المساحة الحرة لتخزينها.

  • وثائق إضافية : استكشاف الأوراق باستخدام الكود

  • الصفحة الرئيسية : https://taodataset.org/

  • كود المصدر : tfds.video.tao.Tao

  • الإصدارات :

    • 1.0.0 (افتراضي): لا توجد ملاحظات الإصدار.
    • 1.1.0 : تمت إضافة تقسيم الاختبار.
  • حجم التحميل : 113.96 GiB

  • تعليمات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل البيانات المصدر يدويًا إلى download_config.manual_dir (الإعداد الافتراضي هو ~/tensorflow_datasets/downloads/manual/ ):
    يجب تنزيل بعض ملفات TAO (مقاطع فيديو HVACS وAVA) يدويًا لأن تسجيل الدخول إلى MOT مطلوب. يرجى تنزيل هذه البيانات واتباع الإرشادات الموجودة على https://motchallenge.net/tao_download.php

قم بتنزيل هذه البيانات وانقل ملفات .zip الناتجة إلى ~/tensorflow_datasets/downloads/manual/

إذا لم تكن البيانات التي تتطلب تنزيلًا يدويًا موجودة، فسيتم تخطيها وسيتم استخدام البيانات التي لا تتطلب تنزيلًا يدويًا فقط.

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'train' 500
'validation' 988
@article{Dave_2020,
   title={TAO: A Large-Scale Benchmark for Tracking Any Object},
   ISBN={9783030585587},
   ISSN={1611-3349},
   url={http://dx.doi.org/10.1007/978-3-030-58558-7_26},
   DOI={10.1007/978-3-030-58558-7_26},
   journal={Lecture Notes in Computer Science},
   publisher={Springer International Publishing},
   author={Dave, Achal and Khurana, Tarasha and Tokmakov, Pavel and Schmid, Cordelia and Ramanan, Deva},
   year={2020},
   pages={436-454}
}

تاو/480_640 (التكوين الافتراضي)

  • وصف التكوين : تم تغيير حجم جميع الصور إلى 480 × 640

  • حجم مجموعة البيانات : 482.30 GiB

  • هيكل الميزة :

FeaturesDict({
    'metadata': FeaturesDict({
        'dataset': string,
        'height': int32,
        'neg_category_ids': Tensor(shape=(None,), dtype=int32),
        'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'scale_category': string,
        'track_id': int32,
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • وثائق الميزة :
ميزة فصل شكل نوع D وصف
المميزاتDict
البيانات الوصفية المميزاتDict
البيانات الوصفية/مجموعة البيانات الموتر خيط
البيانات الوصفية/الارتفاع الموتر int32
البيانات الوصفية/neg_category_ids الموتر (لا أحد،) int32
البيانات الوصفية/not_exhaustive_category_ids الموتر (لا أحد،) int32
البيانات الوصفية/num_frames الموتر int32
البيانات الوصفية/video_name الموتر خيط
البيانات الوصفية/العرض الموتر int32
المسارات تسلسل
المسارات/صناديق التسلسل (ميزة BBox) (لا شيء، 4) float32
المسارات/الفئة ClassLabel int64
المسارات/الإطارات التسلسل (الموتر) (لا أحد،) int32
المسارات/is_crowd الموتر منطقي
المسارات/scale_category الموتر خيط
المسارات/track_id الموتر int32
فيديو فيديو (صورة) (لا يوجد، 480، 640، 3) uint8

تاو/full_resolution

  • وصف التكوين : إصدار الدقة الكاملة لمجموعة البيانات.

  • حجم مجموعة البيانات : 171.24 GiB

  • هيكل الميزة :

FeaturesDict({
    'metadata': FeaturesDict({
        'dataset': string,
        'height': int32,
        'neg_category_ids': Tensor(shape=(None,), dtype=int32),
        'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'scale_category': string,
        'track_id': int32,
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • وثائق الميزة :
ميزة فصل شكل نوع D وصف
المميزاتDict
البيانات الوصفية المميزاتDict
البيانات الوصفية/مجموعة البيانات الموتر خيط
البيانات الوصفية/الارتفاع الموتر int32
البيانات الوصفية/neg_category_ids الموتر (لا أحد،) int32
البيانات الوصفية/not_exhaustive_category_ids الموتر (لا أحد،) int32
البيانات الوصفية/num_frames الموتر int32
البيانات الوصفية/video_name الموتر خيط
البيانات الوصفية/العرض الموتر int32
المسارات تسلسل
المسارات/صناديق التسلسل (ميزة BBox) (لا شيء، 4) float32
المسارات/الفئة ClassLabel int64
المسارات/الإطارات التسلسل (الموتر) (لا أحد،) int32
المسارات/is_crowd الموتر منطقي
المسارات/scale_category الموتر خيط
المسارات/track_id الموتر int32
فيديو فيديو (صورة) (لا شيء، لا شيء، لا شيء، 3) uint8