ref_coco

Sự miêu tả :

Bộ sưu tập gồm 3 bộ dữ liệu biểu thức tham chiếu dựa trên hình ảnh trong bộ dữ liệu COCO. Biểu thức giới thiệu là một đoạn văn bản mô tả một đối tượng duy nhất trong một hình ảnh. Các tập dữ liệu này được thu thập bằng cách yêu cầu người đánh giá phân biệt các đối tượng được mô tả bằng các hộp giới hạn trong tập dữ liệu COCO.

RefCoco và RefCoco+ là của Kazemzadeh et al. 2014. Biểu thức RefCoco+ hoàn toàn là các mô tả dựa trên ngoại hình, được thực thi bằng cách ngăn người xếp loại sử dụng mô tả dựa trên vị trí (ví dụ: "người bên phải" không phải là mô tả hợp lệ cho RefCoco+). RefCocoG là từ Mao và cộng sự. 2016 và có mô tả đối tượng phong phú hơn so với RefCoco do sự khác biệt trong quy trình chú thích. Cụ thể, RefCoco được thu thập trong cài đặt dựa trên trò chơi tương tác, trong khi RefCocoG được thu thập trong cài đặt không tương tác. Trung bình, RefCocoG có 8,4 từ cho mỗi biểu thức trong khi RefCoco có 3,5 từ.

Mỗi tập dữ liệu có các phân bổ phân chia khác nhau thường được báo cáo trong các bài báo. Bộ "testA" và "testB" trong RefCoco và RefCoco+ lần lượt chỉ chứa người và không phải người. Hình ảnh được phân chia thành nhiều phần khác nhau. Trong phần phân chia "google", các đối tượng, không phải hình ảnh, được phân vùng giữa phần tách đoàn tàu và không phải đoàn tàu. Điều này có nghĩa là cùng một hình ảnh có thể xuất hiện trong cả phần tách đoàn tàu và phần xác thực, nhưng các đối tượng được đề cập đến trong hình ảnh sẽ khác nhau giữa hai bộ. Ngược lại, "unc" và "umd" phân chia hình ảnh phân vùng giữa phân tách tàu, xác thực và phân tách kiểm tra. Trong RefCocoG, phần phân tách "google" không có bộ kiểm tra chuẩn và bộ xác thực thường được báo cáo trong các bài báo là "val*".

Số liệu thống kê cho từng tập dữ liệu và phần tách ("refs" là số lượng biểu thức giới thiệu và "hình ảnh" là số lượng hình ảnh):

tập dữ liệu	vách ngăn	tách ra	giới thiệu	hình ảnh
dừa tươi	Google	xe lửa	40000	19213
dừa tươi	Google	giá trị	5000	4559
dừa tươi	Google	Bài kiểm tra	5000	4527
dừa tươi	chú	xe lửa	42404	16994
dừa tươi	chú	giá trị	3811	1500
dừa tươi	chú	kiểm traA	1975	750
dừa tươi	chú	kiểm traB	1810	750
refcoco+	chú	xe lửa	42278	16992
refcoco+	chú	giá trị	3805	1500
refcoco+	chú	kiểm traA	1975	750
refcoco+	chú	kiểm traB	1798	750
refcocog	Google	xe lửa	44822	24698
refcocog	Google	giá trị	5000	4650
refcocog	ừm	xe lửa	42226	21899
refcocog	ừm	giá trị	2573	1300
refcocog	ừm	Bài kiểm tra	5023	2600

Tài liệu bổ sung : Khám phá trên giấy tờ có mã
Trang chủ : https://github.com/lichengunc/refer
Mã nguồn : tfds.datasets.ref_coco.Builder
Phiên bản :
- 1.0.0 : Bản phát hành đầu tiên.
- 1.1.0 (mặc định): Đã thêm mặt nạ.
Kích thước tải xuống : Unknown size
Hướng dẫn tải xuống thủ công : Tập dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
Làm theo hướng dẫn trong https://github.com/lichengunc/refer và tải xuống các chú thích cũng như hình ảnh, khớp với thư mục data/ được chỉ định trong repo.

Làm theo hướng dẫn của PythonAPI trong https://github.com/cocodataset/cocoapi để lấy pycocotools và tệp chú thích instance_train2014 từ https://cocodataset.org/#download
Thêm cả reference.py từ (1) và pycocotools từ (2) vào PYTHONPATH của bạn.
Chạy manual_download_process.py để tạo refcoco.json, thay thế ref_data_root , coco_annotations_file và out_file bằng các giá trị tương ứng với nơi bạn đã tải xuống/muốn lưu các tệp này. Lưu ý rằng manual_download_process.py có thể được tìm thấy trong kho lưu trữ TFDS.
Tải xuống bộ huấn luyện COCO từ https://cocodataset.org/#download và dán nó vào thư mục có tên coco_train2014/ . Di chuyển refcoco.json đến cùng cấp độ với coco_train2014 .
Thực hiện theo các hướng dẫn tải xuống thủ công tiêu chuẩn.

Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Cấu trúc tính năng :

FeaturesDict({
    'coco_annotations': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'gt_box_index': int64,
        'id': int64,
        'label': int64,
        'mask': Image(shape=(None, None, 3), dtype=uint8),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'refexp_id': int64,
        }),
    }),
})

Tài liệu tính năng :

Tính năng	Lớp học	Hình dạng	loại D
	Tính năngDict
coco_annotations	Sự liên tiếp
coco_annotations/khu vực	Tenxơ		int64
coco_annotations/bbox	Tính năng BBox	(4,)	phao32
coco_annotations/id	Tenxơ		int64
coco_annotations/nhãn	Tenxơ		int64
hình ảnh	Hình ảnh	(Không, Không, 3)	uint8
hình ảnh/id	Tenxơ		int64
các đối tượng	Sự liên tiếp
đồ vật/khu vực	Tenxơ		int64
đối tượng/hộp	Tính năng BBox	(4,)	phao32
đối tượng/gt_box_index	Tenxơ		int64
đối tượng/id	Tenxơ		int64
đồ vật/nhãn	Tenxơ		int64
đồ vật/mặt nạ	Hình ảnh	(Không, Không, 3)	uint8
đối tượng/refexp	Sự liên tiếp
đối tượng/refexp/thô	Chữ		sợi dây
đối tượng/refexp/refexp_id	Tenxơ		int64

Khóa được giám sát (Xem as_supervised doc ): None
Trích dẫn :

@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}