дао

  • Описание :

Набор данных TAO представляет собой большой набор данных для обнаружения видеообъектов, состоящий из 2907 видео высокого разрешения и 833 категорий объектов. Обратите внимание, что для хранения этого набора данных требуется не менее 300 ГБ свободного места.

  • Домашняя страница : https://taodataset.org/

  • Исходный код : tfds.video.tao.Tao

  • Версии :

    • 1.0.0 (по умолчанию): Первоначальный выпуск.
  • Размер загрузки : 113.96 GiB

  • Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
    Некоторые файлы TAO (видео HVACS и AVA) необходимо загружать вручную, поскольку требуется вход в MOT. Загрузите эти данные, следуя инструкциям на странице https://motchallenge.net/tao_download.php .

Загрузите эти данные и переместите полученные ZIP-файлы в ~/tensorflow_datasets/downloads/manual/.

Если данные, требующие ручной загрузки, отсутствуют, они будут пропущены, и будут использоваться только данные, не требующие ручной загрузки.

Расколоть Примеры
'train' 500
'validation' 988
@article{Dave_2020,
   title={TAO: A Large-Scale Benchmark for Tracking Any Object},
   ISBN={9783030585587},
   ISSN={1611-3349},
   url={http://dx.doi.org/10.1007/978-3-030-58558-7_26},
   DOI={10.1007/978-3-030-58558-7_26},
   journal={Lecture Notes in Computer Science},
   publisher={Springer International Publishing},
   author={Dave, Achal and Khurana, Tarasha and Tokmakov, Pavel and Schmid, Cordelia and Ramanan, Deva},
   year={2020},
   pages={436-454}
}

тао/480_640 (конфигурация по умолчанию)

  • Описание конфигурации : размер всех изображений билинейно изменен до 480 X 640.

  • Размер набора данных : 482.30 GiB .

  • Структура функции :

FeaturesDict({
    'metadata': FeaturesDict({
        'dataset': tf.string,
        'height': tf.int32,
        'neg_category_ids': Tensor(shape=(None,), dtype=tf.int32),
        'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=tf.int32),
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=363),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'scale_category': tf.string,
        'track_id': tf.int32,
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})
  • Документация по функциям :
Характерная черта Сорт Форма Dтип Описание
ОсобенностиDict
метаданные ОсобенностиDict
метаданные/набор данных Тензор tf.string
метаданные/высота Тензор tf.int32
метаданные/neg_category_ids Тензор (Никто,) tf.int32
метаданные/not_exhaustive_category_ids Тензор (Никто,) tf.int32
метаданные/число_кадров Тензор tf.int32
метаданные/имя_видео Тензор tf.string
метаданные/ширина Тензор tf.int32
треки Последовательность
треки/боксы Последовательность (BBoxFeature) (Нет, 4) tf.float32
треки/категория Метка класса tf.int64
треки/кадры Последовательность (тензор) (Никто,) tf.int32
треки/is_crowd Тензор tf.bool
треки/scale_category Тензор tf.string
треки/track_id Тензор tf.int32
видео Видео (изображение) (Нет, 480, 640, 3) tf.uint8

дао/полное_разрешение

  • Описание конфигурации : версия набора данных с полным разрешением.

  • Размер набора данных : 171.24 GiB

  • Структура функции :

FeaturesDict({
    'metadata': FeaturesDict({
        'dataset': tf.string,
        'height': tf.int32,
        'neg_category_ids': Tensor(shape=(None,), dtype=tf.int32),
        'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=tf.int32),
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=363),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'scale_category': tf.string,
        'track_id': tf.int32,
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})
  • Документация по функциям :
Характерная черта Сорт Форма Dтип Описание
ОсобенностиDict
метаданные ОсобенностиDict
метаданные/набор данных Тензор tf.string
метаданные/высота Тензор tf.int32
метаданные/neg_category_ids Тензор (Никто,) tf.int32
метаданные/not_exhaustive_category_ids Тензор (Никто,) tf.int32
метаданные/число_кадров Тензор tf.int32
метаданные/имя_видео Тензор tf.string
метаданные/ширина Тензор tf.int32
треки Последовательность
треки/боксы Последовательность (BBoxFeature) (Нет, 4) tf.float32
треки/категория Метка класса tf.int64
треки/кадры Последовательность (тензор) (Никто,) tf.int32
треки/is_crowd Тензор tf.bool
треки/scale_category Тензор tf.string
треки/track_id Тензор tf.int32
видео Видео (изображение) (Нет, Нет, Нет, 3) tf.uint8