タオ
コレクションでコンテンツを整理
必要に応じて、コンテンツの保存と分類を行います。
TAO データセットは、2,907 の高解像度ビデオと 833 のオブジェクト カテゴリで構成される大規模なビデオ オブジェクト検出データセットです。このデータセットを保存するには、少なくとも 300 GB の空き容量が必要であることに注意してください。
このデータをダウンロードし、生成された .zip ファイルを ~/tensorflow_datasets/downloads/manual/ に移動します。
手動ダウンロードが必要なデータが存在しない場合はスキップされ、手動ダウンロードが不要なデータのみが使用されます。
@article{Dave_2020,
title={TAO: A Large-Scale Benchmark for Tracking Any Object},
ISBN={9783030585587},
ISSN={1611-3349},
url={http://dx.doi.org/10.1007/978-3-030-58558-7_26},
DOI={10.1007/978-3-030-58558-7_26},
journal={Lecture Notes in Computer Science},
publisher={Springer International Publishing},
author={Dave, Achal and Khurana, Tarasha and Tokmakov, Pavel and Schmid, Cordelia and Ramanan, Deva},
year={2020},
pages={436-454}
}
tao/480_640 (デフォルト設定)
FeaturesDict({
'metadata': FeaturesDict({
'dataset': string,
'height': int32,
'neg_category_ids': Tensor(shape=(None,), dtype=int32),
'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
'frames': Sequence(int32),
'is_crowd': bool,
'scale_category': string,
'track_id': int32,
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
特徴 | クラス | 形 | Dタイプ | 説明 |
---|
| 特徴辞書 | | | |
メタデータ | 特徴辞書 | | | |
メタデータ/データセット | テンソル | | 弦 | |
メタデータ/高さ | テンソル | | int32 | |
メタデータ/neg_category_ids | テンソル | (なし、) | int32 | |
メタデータ/not_exhaustive_category_ids | テンソル | (なし、) | int32 | |
メタデータ/フレーム数 | テンソル | | int32 | |
メタデータ/ビデオ名 | テンソル | | 弦 | |
メタデータ/幅 | テンソル | | int32 | |
トラック | 順序 | | | |
トラック/Bボックス | シーケンス(BBoxFeature) | (なし、4) | float32 | |
トラック/カテゴリー | クラスラベル | | int64 | |
トラック/フレーム | シーケンス(テンソル) | (なし、) | int32 | |
トラック/is_crowd | テンソル | | ブール | |
トラック/スケールカテゴリー | テンソル | | 弦 | |
トラック/track_id | テンソル | | int32 | |
ビデオ | 動画(画像) | (なし、480、640、3) | uint8 | |
タオ/フル解像度
FeaturesDict({
'metadata': FeaturesDict({
'dataset': string,
'height': int32,
'neg_category_ids': Tensor(shape=(None,), dtype=int32),
'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
'frames': Sequence(int32),
'is_crowd': bool,
'scale_category': string,
'track_id': int32,
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
特徴 | クラス | 形 | Dタイプ | 説明 |
---|
| 特徴辞書 | | | |
メタデータ | 特徴辞書 | | | |
メタデータ/データセット | テンソル | | 弦 | |
メタデータ/高さ | テンソル | | int32 | |
メタデータ/neg_category_ids | テンソル | (なし、) | int32 | |
メタデータ/not_exhaustive_category_ids | テンソル | (なし、) | int32 | |
メタデータ/フレーム数 | テンソル | | int32 | |
メタデータ/ビデオ名 | テンソル | | 弦 | |
メタデータ/幅 | テンソル | | int32 | |
トラック | 順序 | | | |
トラック/Bボックス | シーケンス(BBoxFeature) | (なし、4) | float32 | |
トラック/カテゴリー | クラスラベル | | int64 | |
トラック/フレーム | シーケンス(テンソル) | (なし、) | int32 | |
トラック/is_crowd | テンソル | | ブール | |
トラック/スケールカテゴリー | テンソル | | 弦 | |
トラック/track_id | テンソル | | int32 | |
ビデオ | 動画(画像) | (なし、なし、なし、3) | uint8 | |
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2024-11-20 UTC。
[null,null,["最終更新日 2024-11-20 UTC。"],[],[],null,["# tao\n\n\u003cbr /\u003e\n\n| **Warning:** Manual download required. See instructions below.\n\n- **Description**:\n\nThe TAO dataset is a large video object detection dataset consisting of 2,907\nhigh resolution videos and 833 object categories. Note that this dataset\nrequires at least 300 GB of free space to store.\n\n- **Additional Documentation** :\n [Explore on Papers With Code\n north_east](https://paperswithcode.com/dataset/tao)\n\n- **Homepage** : \u003chttps://taodataset.org/\u003e\n\n- **Source code** :\n [`tfds.video.tao.Tao`](https://github.com/tensorflow/datasets/tree/master/tensorflow_datasets/video/tao/tao.py)\n\n- **Versions**:\n\n - **`1.1.0`** (default): Added test split.\n- **Download size** : `Unknown size`\n\n- **Dataset size** : `Unknown size`\n\n- **Manual download instructions** : This dataset requires you to\n download the source data manually into `download_config.manual_dir`\n (defaults to `~/tensorflow_datasets/downloads/manual/`): \n\n Some TAO files (HVACS and AVA videos) must be manually downloaded because\n a login to MOT is required. Please download and those data following\n the instructions at \u003chttps://motchallenge.net/tao_download.php\u003e\n\nDownload this data and move the resulting .zip files to\n\\~/tensorflow_datasets/downloads/manual/\n\nIf the data requiring manual download is not present, it will be skipped over\nand only the data not requiring manual download will be used.\n\n- **Auto-cached**\n ([documentation](https://www.tensorflow.org/datasets/performances#auto-caching)):\n Unknown\n\n- **Splits**:\n\n| Split | Examples |\n|-------|----------|\n\n- **Supervised keys** (See\n [`as_supervised` doc](https://www.tensorflow.org/datasets/api_docs/python/tfds/load#args)):\n `None`\n\n- **Figure**\n ([tfds.show_examples](https://www.tensorflow.org/datasets/api_docs/python/tfds/visualization/show_examples)):\n Not supported.\n\n- **Examples**\n ([tfds.as_dataframe](https://www.tensorflow.org/datasets/api_docs/python/tfds/as_dataframe)):\n Missing.\n\n- **Citation**:\n\n @article{Dave_2020,\n title={TAO: A Large-Scale Benchmark for Tracking Any Object},\n ISBN={9783030585587},\n ISSN={1611-3349},\n url={http://dx.doi.org/10.1007/978-3-030-58558-7_26},\n DOI={10.1007/978-3-030-58558-7_26},\n journal={Lecture Notes in Computer Science},\n publisher={Springer International Publishing},\n author={Dave, Achal and Khurana, Tarasha and Tokmakov, Pavel and Schmid, Cordelia and Ramanan, Deva},\n year={2020},\n pages={436-454}\n }\n\ntao/480_640 (default config)\n----------------------------\n\n- **Config description**: All images are bilinearly resized to 480 X 640\n\n- **Feature structure**:\n\n FeaturesDict({\n 'metadata': FeaturesDict({\n 'dataset': string,\n 'height': int32,\n 'neg_category_ids': Tensor(shape=(None,), dtype=int32),\n 'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),\n 'num_frames': int32,\n 'video_name': string,\n 'width': int32,\n }),\n 'tracks': Sequence({\n 'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),\n 'category': ClassLabel(shape=(), dtype=int64, num_classes=363),\n 'frames': Sequence(int32),\n 'is_crowd': bool,\n 'scale_category': string,\n 'track_id': int32,\n }),\n 'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),\n })\n\n- **Feature documentation**:\n\n| Feature | Class | Shape | Dtype | Description |\n|--------------------------------------|-----------------------|---------------------|---------|-------------|\n| | FeaturesDict | | | |\n| metadata | FeaturesDict | | | |\n| metadata/dataset | Tensor | | string | |\n| metadata/height | Tensor | | int32 | |\n| metadata/neg_category_ids | Tensor | (None,) | int32 | |\n| metadata/not_exhaustive_category_ids | Tensor | (None,) | int32 | |\n| metadata/num_frames | Tensor | | int32 | |\n| metadata/video_name | Tensor | | string | |\n| metadata/width | Tensor | | int32 | |\n| tracks | Sequence | | | |\n| tracks/bboxes | Sequence(BBoxFeature) | (None, 4) | float32 | |\n| tracks/category | ClassLabel | | int64 | |\n| tracks/frames | Sequence(Tensor) | (None,) | int32 | |\n| tracks/is_crowd | Tensor | | bool | |\n| tracks/scale_category | Tensor | | string | |\n| tracks/track_id | Tensor | | int32 | |\n| video | Video(Image) | (None, 480, 640, 3) | uint8 | |\n\ntao/full_resolution\n-------------------\n\n- **Config description**: The full resolution version of the dataset.\n\n- **Feature structure**:\n\n FeaturesDict({\n 'metadata': FeaturesDict({\n 'dataset': string,\n 'height': int32,\n 'neg_category_ids': Tensor(shape=(None,), dtype=int32),\n 'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),\n 'num_frames': int32,\n 'video_name': string,\n 'width': int32,\n }),\n 'tracks': Sequence({\n 'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),\n 'category': ClassLabel(shape=(), dtype=int64, num_classes=363),\n 'frames': Sequence(int32),\n 'is_crowd': bool,\n 'scale_category': string,\n 'track_id': int32,\n }),\n 'video': Video(Image(shape=(None, None, 3), dtype=uint8)),\n })\n\n- **Feature documentation**:\n\n| Feature | Class | Shape | Dtype | Description |\n|--------------------------------------|-----------------------|-----------------------|---------|-------------|\n| | FeaturesDict | | | |\n| metadata | FeaturesDict | | | |\n| metadata/dataset | Tensor | | string | |\n| metadata/height | Tensor | | int32 | |\n| metadata/neg_category_ids | Tensor | (None,) | int32 | |\n| metadata/not_exhaustive_category_ids | Tensor | (None,) | int32 | |\n| metadata/num_frames | Tensor | | int32 | |\n| metadata/video_name | Tensor | | string | |\n| metadata/width | Tensor | | int32 | |\n| tracks | Sequence | | | |\n| tracks/bboxes | Sequence(BBoxFeature) | (None, 4) | float32 | |\n| tracks/category | ClassLabel | | int64 | |\n| tracks/frames | Sequence(Tensor) | (None,) | int32 | |\n| tracks/is_crowd | Tensor | | bool | |\n| tracks/scale_category | Tensor | | string | |\n| tracks/track_id | Tensor | | int32 | |\n| video | Video(Image) | (None, None, None, 3) | uint8 | |"]]