gref

Deskripsi :

Kumpulan data Google RefExp adalah kumpulan deskripsi teks objek dalam gambar yang dibangun di atas kumpulan data MS-COCO yang tersedia untuk umum. Sementara keterangan gambar di MS-COCO berlaku untuk seluruh gambar, kumpulan data ini berfokus pada deskripsi teks yang memungkinkan seseorang untuk secara unik mengidentifikasi satu objek atau wilayah di dalam gambar. Lihat detail lebih lanjut dalam makalah ini: Pembuatan dan Pemahaman Deskripsi Objek yang Jelas.

Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://github.com/mjhucla/Google_Refexp_toolbox
Kode sumber : tfds.vision_language.gref.Gref
Versi :
- 1.0.0 (default): Rilis awal.
Ukuran unduhan : Unknown size
Ukuran dataset : 4.60 GiB
Instruksi pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke download_config.manual_dir (default ke ~/tensorflow_datasets/downloads/manual/ ):
Ikuti petunjuk di https://github.com/mjhucla/Google_Refexp_toolbox untuk mengunduh dan melakukan pra-proses data ke dalam format yang selaras dengan COCO. Direktori berisi 2 file dan satu folder:
google_refexp_train_201511_coco_aligned_catg.json
google_refexp_val_201511_coco_aligned_catg.json
coco_train2014/

Folder coco_train2014 berisi semua gambar pelatihan COCO 2014.

Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'train'`	24.698
`'validation'`	4.650

Struktur fitur :

FeaturesDict({
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
        'label_name': ClassLabel(shape=(), dtype=int64, num_classes=80),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'referent': Text(shape=(), dtype=string),
            'refexp_id': int64,
            'tokens': Sequence(Text(shape=(), dtype=string)),
        }),
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Dtype
	fiturDict
gambar	Gambar	(Tidak ada, Tidak ada, 3)	uint8
gambar/id	Tensor		int64
objek	Urutan
benda/daerah	Tensor		int64
benda/bbox	Fitur BBox	(4,)	float32
benda/id	Tensor		int64
benda/label	Tensor		int64
objek/nama_label	LabelKelas		int64
objek/refexp	Urutan
objek/refexp/mentah	Teks		rangkaian
objek/refexp/referensi	Teks		rangkaian
objek/refexp/refexp_id	Tensor		int64
objek/refexp/token	Urutan (Teks)	(Tidak ada,)	rangkaian

Kunci yang diawasi (Lihat as_supervised doc ): None
Gambar ( tfds.show_examples ):

Visualisasi

Contoh ( tfds.as_dataframe ):

Kutipan :

@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}