- Tanım :
TAO veri seti, 2.907 yüksek çözünürlüklü video ve 833 nesne kategorisinden oluşan büyük bir video nesnesi algılama veri setidir. Bu veri kümesinin saklanması için en az 300 GB boş alan gerektiğini unutmayın.
Ana sayfa : https://taodataset.org/
Kaynak kodu :
tfds.video.tao.Tao
Sürümler :
-
1.1.0
(varsayılan) : Test bölümü eklendi.
-
İndirme boyutu :
Unknown size
Veri kümesi boyutu :
Unknown size
Manuel indirme talimatları : Bu veri kümesi, kaynak verilerini manuel olarak
download_config.manual_dir
içine indirmenizi gerektirir (varsayılan olarak~/tensorflow_datasets/downloads/manual/
şeklindedir):
MOT'ta oturum açılması gerektiğinden bazı TAO dosyalarının (HVACS ve AVA videoları) manuel olarak indirilmesi gerekir. Lütfen https://motchallenge.net/tao_download.php adresindeki talimatları izleyerek bu verileri indirin.
Bu verileri indirin ve elde edilen .zip dosyalarını ~/tensorflow_datasets/downloads/manual/ konumuna taşıyın.
Manuel indirme gerektiren veriler mevcut değilse atlanacak ve yalnızca manuel indirme gerektirmeyen veriler kullanılacaktır.
Otomatik önbelleğe alınmış ( belgeler ): Bilinmiyor
Bölünmeler :
Bölmek | Örnekler |
---|
Denetlenen anahtarlar (
as_supervised
belgesine bakın):None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ): Eksik.
Alıntı :
@article{Dave_2020,
title={TAO: A Large-Scale Benchmark for Tracking Any Object},
ISBN={9783030585587},
ISSN={1611-3349},
url={http://dx.doi.org/10.1007/978-3-030-58558-7_26},
DOI={10.1007/978-3-030-58558-7_26},
journal={Lecture Notes in Computer Science},
publisher={Springer International Publishing},
author={Dave, Achal and Khurana, Tarasha and Tokmakov, Pavel and Schmid, Cordelia and Ramanan, Deva},
year={2020},
pages={436-454}
}
tao/480_640 (varsayılan yapılandırma)
Yapılandırma açıklaması : Tüm resimler çift doğrusal olarak 480 X 640 olarak yeniden boyutlandırılır
Özellik yapısı :
FeaturesDict({
'metadata': FeaturesDict({
'dataset': string,
'height': int32,
'neg_category_ids': Tensor(shape=(None,), dtype=int32),
'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
'frames': Sequence(int32),
'is_crowd': bool,
'scale_category': string,
'track_id': int32,
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
meta veri | ÖzelliklerDict | |||
meta veri/veri kümesi | Tensör | sicim | ||
meta veri/yükseklik | Tensör | int32 | ||
meta veriler/neg_category_ids | Tensör | (Hiçbiri,) | int32 | |
meta veriler/detaylı_kategori_kimlikleri | Tensör | (Hiçbiri,) | int32 | |
meta veriler/num_frames | Tensör | int32 | ||
meta veri/video_adı | Tensör | sicim | ||
meta veri/genişlik | Tensör | int32 | ||
Parçalar | Sekans | |||
parçalar/bkutuları | Sıra(BBoxFeature) | (Yok, 4) | kayan nokta32 | |
parçalar/kategori | SınıfEtiketi | int64 | ||
parçalar/kareler | Sıra(Tensör) | (Hiçbiri,) | int32 | |
tracks/is_crowd | Tensör | bool | ||
parçalar/scale_category | Tensör | sicim | ||
parçalar/track_id | Tensör | int32 | ||
video | Video(Resim) | (Yok, 480, 640, 3) | uint8 |
tao/full_çözünürlük
Yapılandırma açıklaması : Veri kümesinin tam çözünürlüklü sürümü.
Özellik yapısı :
FeaturesDict({
'metadata': FeaturesDict({
'dataset': string,
'height': int32,
'neg_category_ids': Tensor(shape=(None,), dtype=int32),
'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
'frames': Sequence(int32),
'is_crowd': bool,
'scale_category': string,
'track_id': int32,
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
meta veri | ÖzelliklerDict | |||
meta veri/veri kümesi | Tensör | sicim | ||
meta veri/yükseklik | Tensör | int32 | ||
meta veriler/neg_category_ids | Tensör | (Hiçbiri,) | int32 | |
meta veriler/detaylı_kategori_kimlikleri | Tensör | (Hiçbiri,) | int32 | |
meta veriler/num_frames | Tensör | int32 | ||
meta veri/video_adı | Tensör | sicim | ||
meta veri/genişlik | Tensör | int32 | ||
Parçalar | Sekans | |||
parçalar/bkutuları | Sıra(BBoxFeature) | (Yok, 4) | kayan nokta32 | |
parçalar/kategori | SınıfEtiketi | int64 | ||
parçalar/kareler | Sıra(Tensör) | (Hiçbiri,) | int32 | |
tracks/is_crowd | Tensör | bool | ||
parçalar/scale_category | Tensör | sicim | ||
parçalar/track_id | Tensör | int32 | ||
video | Video(Resim) | (Yok, Yok, Yok, 3) | uint8 |