- Tanım :
COCO veri kümesindeki görselleri temel alan 3 referanslı ifade veri kümesinden oluşan bir koleksiyon. Referans veren ifade, bir görüntüdeki benzersiz bir nesneyi tanımlayan bir metin parçasıdır. Bu veri kümeleri, insan değerlendiricilerden COCO veri kümesindeki sınırlayıcı kutularla tanımlanan nesnelerin belirsizliğini gidermeleri istenerek toplanır.
RefCoco ve RefCoco+, Kazemzadeh ve diğerlerine aittir. 2014. RefCoco+ ifadeleri kesinlikle görünüm temelli açıklamalardır ve değerlendiricilerin konuma dayalı açıklamalar kullanmasını engelleyerek zorunlu kılarlar (örneğin, "sağdaki kişi" RefCoco+ için geçerli bir açıklama değildir). RefCocoG, Mao ve diğerlerine aittir. 2016 ve açıklama sürecindeki farklılıklar nedeniyle RefCoco'ya kıyasla daha zengin nesne tanımlarına sahiptir. Özellikle RefCoco etkileşimli oyun tabanlı bir ortamda toplanırken, RefCocoG etkileşimli olmayan bir ortamda toplandı. Ortalama olarak RefCocoG'de ifade başına 8,4 kelime bulunurken RefCoco'da 3,5 kelime bulunur.
Her veri kümesinin, genellikle tümü belgelerde bildirilen farklı bölünmüş tahsisleri vardır. RefCoco ve RefCoco+'daki "testA" ve "testB" setleri sırasıyla yalnızca insanları ve yalnızca insan olmayanları içerir. Görüntüler çeşitli bölümlere ayrılmıştır. "Google" bölümünde tren ve tren dışı bölmeler arasında görüntüler değil nesneler bölünür. Bu, aynı görüntünün hem tren hem de doğrulama bölümünde görünebileceği ancak görüntüde atıfta bulunulan nesnelerin iki küme arasında farklı olacağı anlamına gelir. Buna karşılık, "unc" ve "umd" bölüm görüntülerini tren, doğrulama ve test bölümü arasında böler. RefCocoG'da "google" bölümünün kanonik bir test seti yoktur ve doğrulama seti genellikle makalelerde "val*" olarak rapor edilir.
Her veri kümesi ve bölünmeye ilişkin istatistikler ("refs", yönlendiren ifadelerin sayısıdır ve "resimler", görsellerin sayısıdır):
veri kümesi | bölme | bölmek | referanslar | Görüntüler |
---|---|---|---|---|
Refcoco | tren | 40000 | 19213 | |
Refcoco | val | 5000 | 4559 | |
Refcoco | Ölçek | 5000 | 4527 | |
Refcoco | amca | tren | 42404 | 16994 |
Refcoco | amca | val | 3811 | 1500 |
Refcoco | amca | testA | 1975 | 750 |
Refcoco | amca | testB | 1810 | 750 |
refcoco+ | amca | tren | 42278 | 16992 |
refcoco+ | amca | val | 3805 | 1500 |
refcoco+ | amca | testA | 1975 | 750 |
refcoco+ | amca | testB | 1798 | 750 |
refcocog | tren | 44822 | 24698 | |
refcocog | val | 5000 | 4650 | |
refcocog | umd | tren | 42226 | 21899 |
refcocog | umd | val | 2573 | 1300 |
refcocog | umd | Ölçek | 5023 | 2600 |
Ana sayfa : https://github.com/lichengunc/refer
Kaynak kodu :
tfds.datasets.ref_coco.Builder
Sürümler :
-
1.0.0
: İlk sürüm. -
1.1.0
(varsayılan): Maskeler eklendi.
-
İndirme boyutu :
Unknown size
Manuel indirme talimatları : Bu veri kümesi, kaynak verilerini manuel olarak
download_config.manual_dir
içine indirmenizi gerektirir (varsayılan olarak~/tensorflow_datasets/downloads/manual/
şeklindedir):https://github.com/lichengunc/refer adresindeki talimatları izleyin ve depoda belirtilen data/ dizini ile eşleşen ek açıklamaları ve görüntüleri indirin.
Pycocotools'u ve https://cocodataset.org/#download adresinden examples_train2014 ek açıklama dosyasını almak için https://github.com/cocodataset/cocoapi adresindeki PythonAPI talimatlarını izleyin.
Hem (1)'deki refer.py'yi hem de (2)'deki pycocotools'u PYTHONPATH'inize ekleyin.
ref_data_root
,coco_annotations_file
veout_file
bu dosyaları indirdiğiniz / kaydetmek istediğiniz yere karşılık gelen değerlerle değiştirerek refcoco.json oluşturmak için manual_download_process.py komutunu çalıştırın. Manual_download_process.py dosyasının TFDS deposunda bulunabileceğini unutmayın.COCO eğitim setini https://cocodataset.org/#download adresinden indirin ve
coco_train2014/
adlı bir klasöre yapıştırın.refcoco.json
coco_train2014
ile aynı seviyeye taşıyın.Standart manuel indirme talimatlarını izleyin.
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Özellik yapısı :
FeaturesDict({
'coco_annotations': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'label': int64,
}),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'gt_box_index': int64,
'id': int64,
'label': int64,
'mask': Image(shape=(None, None, 3), dtype=uint8),
'refexp': Sequence({
'raw': Text(shape=(), dtype=string),
'refexp_id': int64,
}),
}),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
coco_annotations | Sekans | |||
coco_annotations/alan | Tensör | int64 | ||
coco_annotations/bbox | BBoxÖzelliği | (4,) | kayan nokta32 | |
coco_annotations/id | Tensör | int64 | ||
coco_annotations/etiket | Tensör | int64 | ||
görüntü | Resim | (Yok, Yok, 3) | uint8 | |
resim/kimlik | Tensör | int64 | ||
nesneler | Sekans | |||
nesneler/alan | Tensör | int64 | ||
nesneler/bbox | BBoxÖzelliği | (4,) | kayan nokta32 | |
nesneler/gt_box_index | Tensör | int64 | ||
nesneler/kimlik | Tensör | int64 | ||
nesneler/etiket | Tensör | int64 | ||
nesneler/maske | Resim | (Yok, Yok, 3) | uint8 | |
nesneler/refexp | Sekans | |||
nesneler/refexp/ham | Metin | sicim | ||
nesneler/refexp/refexp_id | Tensör | int64 |
Denetlenen anahtarlar (
as_supervised
belgesine bakın):None
Alıntı :
@inproceedings{kazemzadeh2014referitgame,
title={Referitgame: Referring to objects in photographs of natural scenes},
author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
pages={787--798},
year={2014}
}
@inproceedings{yu2016modeling,
title={Modeling context in referring expressions},
author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
booktitle={European Conference on Computer Vision},
pages={69--85},
year={2016},
organization={Springer}
}
@inproceedings{mao2016generation,
title={Generation and Comprehension of Unambiguous Object Descriptions},
author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
booktitle={CVPR},
year={2016}
}
@inproceedings{nagaraja2016modeling,
title={Modeling context between objects for referring expression understanding},
author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
booktitle={European Conference on Computer Vision},
pages={792--807},
year={2016},
organization={Springer}
}
ref_coco/refcoco_unc (varsayılan yapılandırma)
Veri kümesi boyutu :
3.29 GiB
Bölünmeler :
Bölmek | Örnekler |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16.994 |
'validation' | 1.500 |
- Şekil ( tfds.show_examples ):
- Örnekler ( tfds.as_dataframe ):
ref_coco/refcoco_google
Veri kümesi boyutu :
4.65 GiB
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 4.527 |
'train' | 19.213 |
'validation' | 4.559 |
- Şekil ( tfds.show_examples ):
- Örnekler ( tfds.as_dataframe ):
ref_coco/refcocoplus_unc
Veri kümesi boyutu :
3.29 GiB
Bölünmeler :
Bölmek | Örnekler |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16.992 |
'validation' | 1.500 |
- Şekil ( tfds.show_examples ):
- Örnekler ( tfds.as_dataframe ):
ref_coco/refcocog_google
Veri kümesi boyutu :
4.64 GiB
Bölünmeler :
Bölmek | Örnekler |
---|---|
'train' | 24.698 |
'validation' | 4.650 |
- Şekil ( tfds.show_examples ):
- Örnekler ( tfds.as_dataframe ):
ref_coco/refcocog_umd
Veri kümesi boyutu :
4.08 GiB
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 2.600 |
'train' | 21.899 |
'validation' | 1.300 |
- Şekil ( tfds.show_examples ):
- Örnekler ( tfds.as_dataframe ):