Trực quan hóa : Khám phá khi biết dữ liệu của bạn
Mô tả :
COCO là một bộ dữ liệu phát hiện đối tượng, phân đoạn và phụ đề quy mô lớn. Phiên bản này chứa hình ảnh, hộp giới hạn, nhãn và chú thích từ COCO 2014, được chia thành các tập hợp con được xác định bởi Karpathy và Li (2015). Điều này phân chia hiệu quả dữ liệu xác thực COCO 2014 ban đầu thành các bộ kiểm tra và xác thực 5000 hình ảnh mới, cộng với một bộ "restval" chứa ~30 nghìn hình ảnh còn lại. Tất cả các phần tách đều có chú thích chú thích.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Mô tả cấu hình : Phiên bản này chứa hình ảnh, hộp giới hạn và nhãn cho phiên bản 2014.
Trang chủ : http://cocodataset.org/#home
Mã nguồn :
tfds.object_detection.CocoCaptions
Phiên bản :
-
1.1.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
37.61 GiB
Kích thước tập dữ liệu :
18.83 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'restval' | 30,504 |
'test' | 5.000 |
'train' | 82,783 |
'val' | 5.000 |
- Cấu trúc tính năng :
FeaturesDict({
'captions': Sequence({
'id': int64,
'text': string,
}),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/filename': Text(shape=(), dtype=string),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'is_crowd': bool,
'label': ClassLabel(shape=(), dtype=int64, num_classes=80),
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
phụ đề | Sự phối hợp | |||
chú thích/id | tenxơ | int64 | ||
chú thích/văn bản | tenxơ | sợi dây | ||
hình ảnh | Hình ảnh | (Không, Không có, 3) | uint8 | |
hình ảnh/tên tập tin | Chữ | sợi dây | ||
hình ảnh/id | tenxơ | int64 | ||
các đối tượng | Sự phối hợp | |||
đồ vật/khu vực | tenxơ | int64 | ||
đối tượng/bbox | Tính năng BBox | (4,) | phao32 | |
đối tượng/id | tenxơ | int64 | ||
đối tượng/là_đám đông | tenxơ | bool | ||
đối tượng/nhãn | LớpNhãn | int64 |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ):
- Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{DBLP:journals/corr/LinMBHPRDZ14,
author = {Tsung{-}Yi Lin and
Michael Maire and
Serge J. Belongie and
Lubomir D. Bourdev and
Ross B. Girshick and
James Hays and
Pietro Perona and
Deva Ramanan and
Piotr Doll{'{a} }r and
C. Lawrence Zitnick},
title = {Microsoft {COCO:} Common Objects in Context},
journal = {CoRR},
volume = {abs/1405.0312},
year = {2014},
url = {http://arxiv.org/abs/1405.0312},
archivePrefix = {arXiv},
eprint = {1405.0312},
timestamp = {Mon, 13 Aug 2018 16:48:13 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/LinMBHPRDZ14},
bibsource = {dblp computer science bibliography, https://dblp.org}
}@inproceedings{DBLP:conf/cvpr/KarpathyL15,
author = {Andrej Karpathy and
Fei{-}Fei Li},
title = {Deep visual-semantic alignments for generating image
descriptions},
booktitle = { {IEEE} Conference on Computer Vision and Pattern Recognition,
{CVPR} 2015, Boston, MA, USA, June 7-12, 2015},
pages = {3128--3137},
publisher = { {IEEE} Computer Society},
year = {2015},
url = {https://doi.org/10.1109/CVPR.2015.7298932},
doi = {10.1109/CVPR.2015.7298932},
timestamp = {Wed, 16 Oct 2019 14:14:50 +0200},
biburl = {https://dblp.org/rec/conf/cvpr/KarpathyL15.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}