gref

  • Mô tả :

Tập dữ liệu Google RefExp là một tập hợp các mô tả văn bản của các đối tượng trong hình ảnh được xây dựng dựa trên tập dữ liệu MS-COCO có sẵn công khai. Trong khi chú thích hình ảnh trong MS-COCO áp dụng cho toàn bộ hình ảnh, tập dữ liệu này tập trung vào các mô tả văn bản cho phép người ta xác định duy nhất một đối tượng hoặc vùng duy nhất trong hình ảnh. Xem thêm chi tiết trong bài báo này: Tạo và hiểu các mô tả đối tượng rõ ràng.

  • Trang chủ : https://github.com/mjhucla/Google_Refexp_toolbox

  • Mã nguồn : tfds.vision_language.gref.Gref

  • Các phiên bản :

    • 1.0.0 (mặc định): Bản phát hành ban đầu.
  • Kích thước tải xuống : Unknown size

  • Kích thước tập dữ liệu : 4.60 GiB

  • Hướng dẫn tải xuống thủ công: Tập dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
    Làm theo hướng dẫn tại https://github.com/mjhucla/Google_Refexp_toolbox để tải xuống và xử lý trước dữ liệu ở định dạng phù hợp với COCO. Thư mục chứa 2 tệp và một thư mục:

  • google_refexp_train_201511_coco_aligned_catg.json

  • google_refexp_val_201511_coco_aligned_catg.json

  • coco_train2014 /

Thư mục coco_train2014 chứa tất cả hình ảnh đào tạo COCO 2014.

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'train' 24.698
'validation' 4.650
  • Các tính năng :
FeaturesDict({
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image/id': tf.int64,
    'objects': Sequence({
        'area': tf.int64,
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'id': tf.int64,
        'label': tf.int64,
        'label_name': ClassLabel(shape=(), dtype=tf.int64, num_classes=80),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=tf.string),
            'referent': Text(shape=(), dtype=tf.string),
            'refexp_id': tf.int64,
            'tokens': Sequence(Text(shape=(), dtype=tf.string)),
        }),
    }),
})

Hình dung

  • Trích dẫn :
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}