- توضیحات :
مجموعه داده TAO یک مجموعه داده بزرگ تشخیص اشیاء ویدیویی است که از 2907 ویدیو با وضوح بالا و 833 دسته شی تشکیل شده است. توجه داشته باشید که این مجموعه داده برای ذخیره به حداقل 300 گیگابایت فضای خالی نیاز دارد.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://taodataset.org/
کد منبع :
tfds.video.tao.Tao
نسخه ها :
-
1.1.0
(پیش فرض) : تقسیم آزمایشی اضافه شد.
-
اندازه دانلود :
Unknown size
اندازه مجموعه داده :
Unknown size
دستورالعملهای دانلود دستی : این مجموعه داده از شما میخواهد که دادههای منبع را به صورت دستی در
download_config.manual_dir
دانلود کنید (پیشفرض~/tensorflow_datasets/downloads/manual/
):
برخی از فایل های TAO (فیلم های HVACS و AVA) باید به صورت دستی دانلود شوند زیرا ورود به MOT لازم است. لطفاً آن دادهها را طبق دستورالعملهای موجود در https://motchallenge.net/tao_download.php دانلود کنید
این داده ها را دانلود کنید و فایل های .zip حاصل را به ~/tensorflow_datasets/downloads/manual/ منتقل کنید
اگر دادههایی که نیاز به دانلود دستی دارند وجود نداشته باشد، از آن صرفنظر میشود و فقط از دادههایی استفاده میشود که نیازی به دانلود دستی ندارند.
ذخیره خودکار ( اسناد ): ناشناخته
تقسیم ها :
تقسیم کنید | نمونه ها |
---|
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ): وجود ندارد.
نقل قول :
@article{Dave_2020,
title={TAO: A Large-Scale Benchmark for Tracking Any Object},
ISBN={9783030585587},
ISSN={1611-3349},
url={http://dx.doi.org/10.1007/978-3-030-58558-7_26},
DOI={10.1007/978-3-030-58558-7_26},
journal={Lecture Notes in Computer Science},
publisher={Springer International Publishing},
author={Dave, Achal and Khurana, Tarasha and Tokmakov, Pavel and Schmid, Cordelia and Ramanan, Deva},
year={2020},
pages={436-454}
}
tao/480_640 (پیکربندی پیشفرض)
توضیحات پیکربندی : همه تصاویر به صورت دوخطی به 480 در 640 تغییر اندازه داده اند
ساختار ویژگی :
FeaturesDict({
'metadata': FeaturesDict({
'dataset': string,
'height': int32,
'neg_category_ids': Tensor(shape=(None,), dtype=int32),
'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
'frames': Sequence(int32),
'is_crowd': bool,
'scale_category': string,
'track_id': int32,
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | توضیحات |
---|---|---|---|---|
FeaturesDict | ||||
ابرداده | FeaturesDict | |||
فراداده/مجموعه داده | تانسور | رشته | ||
ابرداده/ارتفاع | تانسور | int32 | ||
فراداده/neg_category_ids | تانسور | (هیچ،) | int32 | |
فراداده/not_Exhaustive_category_ids | تانسور | (هیچ،) | int32 | |
متادیتا/تعداد_فریم ها | تانسور | int32 | ||
فراداده/نام_ویدئو | تانسور | رشته | ||
فراداده/عرض | تانسور | int32 | ||
آهنگ ها | دنباله | |||
آهنگ/bboxes | دنباله (BoxFeature) | (هیچ، 4) | float32 | |
آهنگ / دسته | ClassLabel | int64 | ||
آهنگ/قاب | دنباله (تنسور) | (هیچ،) | int32 | |
tracks/is_crowd | تانسور | بوول | ||
آهنگ/رده_مقیاس | تانسور | رشته | ||
tracks/track_id | تانسور | int32 | ||
ویدئو | ویدئو (تصویر) | (هیچ، 480، 640، 3) | uint8 |
tao/full_resolution
توضیحات پیکربندی : نسخه با وضوح کامل مجموعه داده.
ساختار ویژگی :
FeaturesDict({
'metadata': FeaturesDict({
'dataset': string,
'height': int32,
'neg_category_ids': Tensor(shape=(None,), dtype=int32),
'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
'frames': Sequence(int32),
'is_crowd': bool,
'scale_category': string,
'track_id': int32,
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | توضیحات |
---|---|---|---|---|
FeaturesDict | ||||
ابرداده | FeaturesDict | |||
فراداده/مجموعه داده | تانسور | رشته | ||
ابرداده/ارتفاع | تانسور | int32 | ||
فراداده/neg_category_ids | تانسور | (هیچ،) | int32 | |
فراداده/not_Exhaustive_category_ids | تانسور | (هیچ،) | int32 | |
متادیتا/تعداد_فریم ها | تانسور | int32 | ||
فراداده/نام_ویدئو | تانسور | رشته | ||
فراداده/عرض | تانسور | int32 | ||
آهنگ ها | دنباله | |||
آهنگ/bboxes | دنباله (BoxFeature) | (هیچ، 4) | float32 | |
آهنگ / دسته | ClassLabel | int64 | ||
آهنگ/قاب | دنباله (تنسور) | (هیچ،) | int32 | |
tracks/is_crowd | تانسور | بوول | ||
آهنگ/رده_مقیاس | تانسور | رشته | ||
tracks/track_id | تانسور | int32 | ||
ویدئو | ویدئو (تصویر) | (هیچ، هیچ، هیچ، 3) | uint8 |