ref_coco

  • Mô tả:

Tập hợp 3 bộ dữ liệu biểu thức giới thiệu dựa trên hình ảnh trong bộ dữ liệu COCO. Biểu thức giới thiệu là một đoạn văn bản mô tả một đối tượng duy nhất trong hình ảnh. Các tập dữ liệu này được thu thập bằng cách yêu cầu người đánh giá phân định các đối tượng được phân định bằng các hộp giới hạn trong tập dữ liệu COCO.

RefCoco và RefCoco + là của Kazemzadeh et al. 2014. Biểu thức RefCoco + là mô tả dựa trên ngoại hình nghiêm ngặt, được họ thực thi bằng cách ngăn người xếp hạng sử dụng mô tả dựa trên vị trí (ví dụ: "người ở bên phải" không phải là mô tả hợp lệ cho RefCoco +). RefCocoG là của Mao et al. 2016, và có nhiều mô tả đối tượng phong phú hơn so với RefCoco do sự khác biệt trong quy trình chú thích. Cụ thể, RefCoco được thu thập trong cài đặt dựa trên trò chơi tương tác, trong khi RefCocoG được thu thập trong cài đặt không tương tác. Trung bình, RefCocoG có 8,4 từ mỗi biểu thức trong khi RefCoco có 3,5 từ.

Mỗi tập dữ liệu có các phân bổ phân chia khác nhau thường được báo cáo trong các bài báo. Bộ "testA" và "testB" trong RefCoco và RefCoco + lần lượt chỉ chứa những người và chỉ những người không phải là người. Hình ảnh được phân chia thành nhiều phần khác nhau. Trong phần tách "google", các đối tượng, không phải hình ảnh, được phân vùng giữa phần tách đoàn tàu và không phải đoàn tàu. Điều này có nghĩa là cùng một hình ảnh có thể xuất hiện trong cả phần tách tàu và xác thực, nhưng các đối tượng được tham chiếu trong hình ảnh sẽ khác nhau giữa hai tập hợp. Ngược lại, "un" và "umd" phân chia hình ảnh phân vùng giữa phân chia chuyến tàu, xác thực và thử nghiệm. Trong RefCocoG, phần tách "google" không có bộ kiểm tra chuẩn và bộ xác thực thường được báo cáo trong các bài báo là "val *".

Số liệu thống kê cho mỗi tập dữ liệu và phần tách ("refs" là số lượng biểu thức giới thiệu và "images" là số lượng hình ảnh):

tập dữ liệu vách ngăn tách ra refs hình ảnh
refcoco Google tàu hỏa 40000 19213
refcoco Google val 5000 4559
refcoco Google kiểm tra 5000 4527
refcoco bác tàu hỏa 42404 16994
refcoco bác val 3811 1500
refcoco bác testA 1975 750
refcoco bác testB 1810 750
refcoco + bác tàu hỏa 42278 16992
refcoco + bác val 3805 1500
refcoco + bác testA 1975 750
refcoco + bác testB 1798 750
refcocog Google tàu hỏa 44822 24698
refcocog Google val 5000 4650
refcocog ừm tàu hỏa 42226 21899
refcocog ừm val 2573 1300
refcocog ừm kiểm tra 5023 2600
  • Trang chủ: https://github.com/lichengunc/refer

  • Source code: tfds.vision_language.refcoco.RefCoco

  • phiên bản:

    • 1.0.0 (mặc định): Phiên bản đầu tiên.
  • Dung lượng tải về: Unknown size

  • Hướng dẫn tải về Hướng dẫn sử dụng: Bộ dữ liệu này đòi hỏi bạn phải tải về dữ liệu nguồn bằng tay vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):

  • Thực hiện theo các hướng dẫn trong https://github.com/lichengunc/refer và tải về các chú thích và hình ảnh, phù hợp với các dữ liệu / thư mục chỉ định trong repo.

  1. Thực hiện theo các hướng dẫn của PythonAPI trong https://github.com/cocodataset/cocoapi để có được pycocotools và các chú thích instances_train2014 tập tin từ https://cocodataset.org/#download

  2. Thêm cả reference.py từ (1) và pycocotools từ (2) vào PYTHONPATH của bạn.

  3. Chạy manual_download_process.py để tạo refcoco.json, thay thế ref_data_root , coco_annotations_file , và out_file với các giá trị tương ứng với nơi bạn đã tải / muốn lưu những tập tin này. Lưu ý rằng bạn có thể tìm thấy manual_download_process.py trong kho lưu trữ TFDS.

  4. Tải về tập huấn luyện COCO từ https://cocodataset.org/#download và dính nó vào một thư mục có tên coco_train2014/ . Di chuyển refcoco.json đến mức giống như coco_train2014 .

  5. Làm theo hướng dẫn tải xuống thủ công tiêu chuẩn.

  • Tự động lưu trữ ( tài liệu ): Không

  • Các tính năng:

FeaturesDict({
    'coco_annotations': Sequence({
        'area': tf.int64,
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'id': tf.int64,
        'label': tf.int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image/id': tf.int64,
    'objects': Sequence({
        'area': tf.int64,
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'gt_box_index': tf.int64,
        'id': tf.int64,
        'label': tf.int64,
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=tf.string),
            'refexp_id': tf.int64,
        }),
    }),
})
@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco / refcoco_unc (cấu hình mặc định)

  • Kích thước tập dữ liệu: 3.24 GiB

  • tách:

Tách ra Các ví dụ
'testA' 750
'testB' 750
'train' 16.994
'validation' 1.500

Hình dung

ref_coco / refcoco_google

  • Kích thước tập dữ liệu: 4.60 GiB

  • tách:

Tách ra Các ví dụ
'test' 4,527
'train' 19.213
'validation' 4,559

Hình dung

ref_coco / refcocoplus_unc

  • Kích thước tập dữ liệu: 3.24 GiB

  • tách:

Tách ra Các ví dụ
'testA' 750
'testB' 750
'train' 16.992
'validation' 1.500

Hình dung

ref_coco / refcocog_google

  • Kích thước tập dữ liệu: 4.59 GiB

  • tách:

Tách ra Các ví dụ
'train' 24.698
'validation' 4.650

Hình dung

ref_coco / refcocog_umd

  • Kích thước tập dữ liệu: 4.04 GiB

  • tách:

Tách ra Các ví dụ
'test' 2.600
'train' 21.899
'validation' 1.300

Hình dung