- Deskripsi :
Kumpulan data Google RefExp adalah kumpulan deskripsi teks objek dalam gambar yang dibangun di atas kumpulan data MS-COCO yang tersedia untuk umum. Sementara keterangan gambar di MS-COCO berlaku untuk seluruh gambar, kumpulan data ini berfokus pada deskripsi teks yang memungkinkan seseorang untuk secara unik mengidentifikasi satu objek atau wilayah di dalam gambar. Lihat detail lebih lanjut dalam makalah ini: Pembuatan dan Pemahaman Deskripsi Objek yang Jelas.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Kode sumber :
tfds.vision_language.gref.Gref
Versi :
-
1.0.0
(default): Rilis awal.
-
Ukuran unduhan :
Unknown size
Ukuran dataset :
4.60 GiB
Instruksi pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke
download_config.manual_dir
(default ke~/tensorflow_datasets/downloads/manual/
):
Ikuti petunjuk di https://github.com/mjhucla/Google_Refexp_toolbox untuk mengunduh dan melakukan pra-proses data ke dalam format yang selaras dengan COCO. Direktori berisi 2 file dan satu folder:google_refexp_train_201511_coco_aligned_catg.json
google_refexp_val_201511_coco_aligned_catg.json
coco_train2014/
Folder coco_train2014 berisi semua gambar pelatihan COCO 2014.
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 24.698 |
'validation' | 4.650 |
- Struktur fitur :
FeaturesDict({
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'label': int64,
'label_name': ClassLabel(shape=(), dtype=int64, num_classes=80),
'refexp': Sequence({
'raw': Text(shape=(), dtype=string),
'referent': Text(shape=(), dtype=string),
'refexp_id': int64,
'tokens': Sequence(Text(shape=(), dtype=string)),
}),
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
gambar | Gambar | (Tidak ada, Tidak ada, 3) | uint8 | |
gambar/id | Tensor | int64 | ||
objek | Urutan | |||
benda/daerah | Tensor | int64 | ||
benda/bbox | Fitur BBox | (4,) | float32 | |
benda/id | Tensor | int64 | ||
benda/label | Tensor | int64 | ||
objek/nama_label | LabelKelas | int64 | ||
objek/refexp | Urutan | |||
objek/refexp/mentah | Teks | rangkaian | ||
objek/refexp/referensi | Teks | rangkaian | ||
objek/refexp/refexp_id | Tensor | int64 | ||
objek/refexp/token | Urutan (Teks) | (Tidak ada,) | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ):
- Contoh ( tfds.as_dataframe ):
- Kutipan :
@inproceedings{mao2016generation,
title={Generation and Comprehension of Unambiguous Object Descriptions},
author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
booktitle={CVPR},
year={2016}
}