coco_captions

Sự miêu tả :

COCO là một bộ dữ liệu phát hiện, phân đoạn và chú thích đối tượng quy mô lớn. Phiên bản này chứa hình ảnh, hộp giới hạn, nhãn và chú thích từ COCO 2014, được chia thành các tập hợp con được xác định bởi Karpathy và Li (2015). Điều này phân chia hiệu quả dữ liệu xác thực COCO 2014 ban đầu thành các bộ kiểm tra và xác thực 5000 hình ảnh mới, cùng với bộ "giá trị còn lại" chứa ~30k hình ảnh còn lại. Tất cả các phần chia đều có chú thích chú thích.

Tài liệu bổ sung : Khám phá trên giấy tờ có mã
Mô tả cấu hình : Phiên bản này chứa hình ảnh, hộp giới hạn và nhãn cho phiên bản 2014.
Trang chủ : http://cocodataset.org/#home
Mã nguồn : tfds.object_detection.CocoCaptions
Phiên bản :
- 1.1.0 (mặc định): Không có ghi chú phát hành.
Kích thước tải xuống : 37.61 GiB
Kích thước tập dữ liệu : 18.83 GiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :

Tách ra	Ví dụ
`'restval'`	30,504
`'test'`	5.000
`'train'`	82.783
`'val'`	5.000

Cấu trúc tính năng :

FeaturesDict({
    'captions': Sequence({
        'id': int64,
        'text': string,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/filename': Text(shape=(), dtype=string),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'is_crowd': bool,
        'label': ClassLabel(shape=(), dtype=int64, num_classes=80),
    }),
})

Tài liệu tính năng :

Tính năng	Lớp học	Hình dạng	loại D
	Tính năngDict
chú thích	Sự liên tiếp
chú thích/id	Tenxơ		int64
chú thích/văn bản	Tenxơ		sợi dây
hình ảnh	Hình ảnh	(Không, Không, 3)	uint8
hình ảnh/tên tập tin	Chữ		sợi dây
hình ảnh/id	Tenxơ		int64
các đối tượng	Sự liên tiếp
đồ vật/khu vực	Tenxơ		int64
đối tượng/hộp	Tính năng BBox	(4,)	phao32
đối tượng/id	Tenxơ		int64
đối tượng/is_crowd	Tenxơ		bool
đồ vật/nhãn	Nhãn lớp		int64

Khóa được giám sát (Xem as_supervised doc ): None
Hình ( tfds.show_examples ):

Hình dung

Ví dụ ( tfds.as_dataframe ):

Trích dẫn :

@article{DBLP:journals/corr/LinMBHPRDZ14,
  author    = {Tsung{-}Yi Lin and
               Michael Maire and
               Serge J. Belongie and
               Lubomir D. Bourdev and
               Ross B. Girshick and
               James Hays and
               Pietro Perona and
               Deva Ramanan and
               Piotr Doll{'{a} }r and
               C. Lawrence Zitnick},
  title     = {Microsoft {COCO:} Common Objects in Context},
  journal   = {CoRR},
  volume    = {abs/1405.0312},
  year      = {2014},
  url       = {http://arxiv.org/abs/1405.0312},
  archivePrefix = {arXiv},
  eprint    = {1405.0312},
  timestamp = {Mon, 13 Aug 2018 16:48:13 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/LinMBHPRDZ14},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}@inproceedings{DBLP:conf/cvpr/KarpathyL15,
  author    = {Andrej Karpathy and
               Fei{-}Fei Li},
  title     = {Deep visual-semantic alignments for generating image
               descriptions},
  booktitle = { {IEEE} Conference on Computer Vision and Pattern Recognition,
               {CVPR} 2015, Boston, MA, USA, June 7-12, 2015},
  pages     = {3128--3137},
  publisher = { {IEEE} Computer Society},
  year      = {2015},
  url       = {https://doi.org/10.1109/CVPR.2015.7298932},
  doi       = {10.1109/CVPR.2015.7298932},
  timestamp = {Wed, 16 Oct 2019 14:14:50 +0200},
  biburl    = {https://dblp.org/rec/conf/cvpr/KarpathyL15.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

coco_captions Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

coco_captions/2014 (cấu hình mặc định)

coco_captions