- Sự miêu tả :
Bộ sưu tập gồm 3 bộ dữ liệu biểu thức tham chiếu dựa trên hình ảnh trong bộ dữ liệu COCO. Biểu thức giới thiệu là một đoạn văn bản mô tả một đối tượng duy nhất trong một hình ảnh. Các tập dữ liệu này được thu thập bằng cách yêu cầu người đánh giá phân biệt các đối tượng được mô tả bằng các hộp giới hạn trong tập dữ liệu COCO.
RefCoco và RefCoco+ là của Kazemzadeh et al. 2014. Biểu thức RefCoco+ hoàn toàn là các mô tả dựa trên ngoại hình, được thực thi bằng cách ngăn người xếp loại sử dụng mô tả dựa trên vị trí (ví dụ: "người bên phải" không phải là mô tả hợp lệ cho RefCoco+). RefCocoG là từ Mao và cộng sự. 2016 và có mô tả đối tượng phong phú hơn so với RefCoco do sự khác biệt trong quy trình chú thích. Cụ thể, RefCoco được thu thập trong cài đặt dựa trên trò chơi tương tác, trong khi RefCocoG được thu thập trong cài đặt không tương tác. Trung bình, RefCocoG có 8,4 từ cho mỗi biểu thức trong khi RefCoco có 3,5 từ.
Mỗi tập dữ liệu có các phân bổ phân chia khác nhau thường được báo cáo trong các bài báo. Bộ "testA" và "testB" trong RefCoco và RefCoco+ lần lượt chỉ chứa người và không phải người. Hình ảnh được phân chia thành nhiều phần khác nhau. Trong phần phân chia "google", các đối tượng, không phải hình ảnh, được phân vùng giữa phần tách đoàn tàu và không phải đoàn tàu. Điều này có nghĩa là cùng một hình ảnh có thể xuất hiện trong cả phần tách đoàn tàu và phần xác thực, nhưng các đối tượng được đề cập đến trong hình ảnh sẽ khác nhau giữa hai bộ. Ngược lại, "unc" và "umd" phân chia hình ảnh phân vùng giữa phân tách tàu, xác thực và phân tách kiểm tra. Trong RefCocoG, phần phân tách "google" không có bộ kiểm tra chuẩn và bộ xác thực thường được báo cáo trong các bài báo là "val*".
Số liệu thống kê cho từng tập dữ liệu và phần tách ("refs" là số lượng biểu thức giới thiệu và "hình ảnh" là số lượng hình ảnh):
tập dữ liệu | vách ngăn | tách ra | giới thiệu | hình ảnh |
---|---|---|---|---|
dừa tươi | xe lửa | 40000 | 19213 | |
dừa tươi | giá trị | 5000 | 4559 | |
dừa tươi | Bài kiểm tra | 5000 | 4527 | |
dừa tươi | chú | xe lửa | 42404 | 16994 |
dừa tươi | chú | giá trị | 3811 | 1500 |
dừa tươi | chú | kiểm traA | 1975 | 750 |
dừa tươi | chú | kiểm traB | 1810 | 750 |
refcoco+ | chú | xe lửa | 42278 | 16992 |
refcoco+ | chú | giá trị | 3805 | 1500 |
refcoco+ | chú | kiểm traA | 1975 | 750 |
refcoco+ | chú | kiểm traB | 1798 | 750 |
refcocog | xe lửa | 44822 | 24698 | |
refcocog | giá trị | 5000 | 4650 | |
refcocog | ừm | xe lửa | 42226 | 21899 |
refcocog | ừm | giá trị | 2573 | 1300 |
refcocog | ừm | Bài kiểm tra | 5023 | 2600 |
Tài liệu bổ sung : Khám phá trên giấy tờ có mã
Trang chủ : https://github.com/lichengunc/refer
Mã nguồn :
tfds.datasets.ref_coco.Builder
Phiên bản :
-
1.0.0
: Bản phát hành đầu tiên. -
1.1.0
(mặc định): Đã thêm mặt nạ.
-
Kích thước tải xuống :
Unknown size
Hướng dẫn tải xuống thủ công : Tập dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào
download_config.manual_dir
(mặc định là~/tensorflow_datasets/downloads/manual/
):Làm theo hướng dẫn trong https://github.com/lichengunc/refer và tải xuống các chú thích cũng như hình ảnh, khớp với thư mục data/ được chỉ định trong repo.
Làm theo hướng dẫn của PythonAPI trong https://github.com/cocodataset/cocoapi để lấy pycocotools và tệp chú thích instance_train2014 từ https://cocodataset.org/#download
Thêm cả reference.py từ (1) và pycocotools từ (2) vào PYTHONPATH của bạn.
Chạy manual_download_process.py để tạo refcoco.json, thay thế
ref_data_root
,coco_annotations_file
vàout_file
bằng các giá trị tương ứng với nơi bạn đã tải xuống/muốn lưu các tệp này. Lưu ý rằng manual_download_process.py có thể được tìm thấy trong kho lưu trữ TFDS.Tải xuống bộ huấn luyện COCO từ https://cocodataset.org/#download và dán nó vào thư mục có tên
coco_train2014/
. Di chuyểnrefcoco.json
đến cùng cấp độ vớicoco_train2014
.Thực hiện theo các hướng dẫn tải xuống thủ công tiêu chuẩn.
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Cấu trúc tính năng :
FeaturesDict({
'coco_annotations': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'label': int64,
}),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'gt_box_index': int64,
'id': int64,
'label': int64,
'mask': Image(shape=(None, None, 3), dtype=uint8),
'refexp': Sequence({
'raw': Text(shape=(), dtype=string),
'refexp_id': int64,
}),
}),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | loại D | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
coco_annotations | Sự liên tiếp | |||
coco_annotations/khu vực | Tenxơ | int64 | ||
coco_annotations/bbox | Tính năng BBox | (4,) | phao32 | |
coco_annotations/id | Tenxơ | int64 | ||
coco_annotations/nhãn | Tenxơ | int64 | ||
hình ảnh | Hình ảnh | (Không, Không, 3) | uint8 | |
hình ảnh/id | Tenxơ | int64 | ||
các đối tượng | Sự liên tiếp | |||
đồ vật/khu vực | Tenxơ | int64 | ||
đối tượng/hộp | Tính năng BBox | (4,) | phao32 | |
đối tượng/gt_box_index | Tenxơ | int64 | ||
đối tượng/id | Tenxơ | int64 | ||
đồ vật/nhãn | Tenxơ | int64 | ||
đồ vật/mặt nạ | Hình ảnh | (Không, Không, 3) | uint8 | |
đối tượng/refexp | Sự liên tiếp | |||
đối tượng/refexp/thô | Chữ | sợi dây | ||
đối tượng/refexp/refexp_id | Tenxơ | int64 |
Khóa được giám sát (Xem
as_supervised
doc ):None
Trích dẫn :
@inproceedings{kazemzadeh2014referitgame,
title={Referitgame: Referring to objects in photographs of natural scenes},
author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
pages={787--798},
year={2014}
}
@inproceedings{yu2016modeling,
title={Modeling context in referring expressions},
author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
booktitle={European Conference on Computer Vision},
pages={69--85},
year={2016},
organization={Springer}
}
@inproceedings{mao2016generation,
title={Generation and Comprehension of Unambiguous Object Descriptions},
author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
booktitle={CVPR},
year={2016}
}
@inproceedings{nagaraja2016modeling,
title={Modeling context between objects for referring expression understanding},
author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
booktitle={European Conference on Computer Vision},
pages={792--807},
year={2016},
organization={Springer}
}
ref_coco/refcoco_unc (cấu hình mặc định)
Kích thước tập dữ liệu :
3.29 GiB
Chia tách :
Tách ra | Ví dụ |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16.994 |
'validation' | 1.500 |
- Hình ( tfds.show_examples ):
- Ví dụ ( tfds.as_dataframe ):
ref_coco/refcoco_google
Kích thước tập dữ liệu :
4.65 GiB
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 4.527 |
'train' | 19.213 |
'validation' | 4,559 |
- Hình ( tfds.show_examples ):
- Ví dụ ( tfds.as_dataframe ):
ref_coco/refcocoplus_unc
Kích thước tập dữ liệu :
3.29 GiB
Chia tách :
Tách ra | Ví dụ |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16.992 |
'validation' | 1.500 |
- Hình ( tfds.show_examples ):
- Ví dụ ( tfds.as_dataframe ):
ref_coco/refcocog_google
Kích thước tập dữ liệu :
4.64 GiB
Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 24.698 |
'validation' | 4.650 |
- Hình ( tfds.show_examples ):
- Ví dụ ( tfds.as_dataframe ):
ref_coco/refcocog_umd
Kích thước tập dữ liệu :
4.08 GiB
Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 2.600 |
'train' | 21.899 |
'validation' | 1.300 |
- Hình ( tfds.show_examples ):
- Ví dụ ( tfds.as_dataframe ):