cifar10_1

Bộ dữ liệu CIFAR-10.1 là bộ thử nghiệm mới cho CIFAR-10. CIFAR-10.1 chứa khoảng 2.000 hình ảnh thử nghiệm mới được lấy mẫu sau nhiều năm nghiên cứu trên tập dữ liệu CIFAR-10 ban đầu. Việc thu thập dữ liệu cho CIFAR-10.1 được thiết kế để giảm thiểu sự thay đổi phân phối so với tập dữ liệu gốc. Chúng tôi mô tả việc tạo CIFAR-10.1 trong bài báo "Các bộ phân loại CIFAR-10 có khái quát hóa thành CIFAR-10 không?". Hình ảnh trong CIFAR-10.1 là tập hợp con của bộ dữ liệu TinyImages. Hiện tại có hai phiên bản của bộ dữ liệu CIFAR-10.1: v4 và v6.

FeaturesDict({
    'image': Image(shape=(32, 32, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
hình ảnh Hình ảnh (32, 32, 3) uint8
nhãn mác LớpNhãn int64
  • Các khóa được giám sát (Xem as_supervised doc ): ('image', 'label')

  • trích dẫn :

@article{recht2018cifar10.1,
  author = {Benjamin Recht and Rebecca Roelofs and Ludwig Schmidt and Vaishaal Shankar},
  title = {Do CIFAR-10 Classifiers Generalize to CIFAR-10?},
  year = {2018},
  note = {\url{https://arxiv.org/abs/1806.00451} },
}

@article{torralba2008tinyimages,
  author = {Antonio Torralba and Rob Fergus and William T. Freeman},
  journal = {IEEE Transactions on Pattern Analysis and Machine Intelligence},
  title = {80 Million Tiny Images: A Large Data Set for Nonparametric Object and Scene Recognition},
  year = {2008},
  volume = {30},
  number = {11},
  pages = {1958-1970}
}

cifar10_1/v4 (cấu hình mặc định)

  • Mô tả cấu hình : Đây là phiên bản đầu tiên của tập dữ liệu mà chúng tôi đã thử nghiệm bất kỳ trình phân loại nào. Như đã đề cập ở trên, điều này làm cho bộ dữ liệu v4 độc lập với các bộ phân loại mà chúng tôi đánh giá. Các con số được báo cáo trong các phần chính của bài báo của chúng tôi sử dụng phiên bản bộ dữ liệu này. Nó được xây dựng từ 25 từ khóa TinyImages hàng đầu cho mỗi lớp, dẫn đến sự mất cân bằng nhẹ của lớp. Sự khác biệt lớn nhất là các con tàu chỉ chiếm 8% trong tổng số bài kiểm tra thay vì 10%. v4 chứa 2.021 hình ảnh.

  • Kích thước tải xuống : 5.93 MiB

  • Kích thước tập dữ liệu : 4.46 MiB

  • Chia tách :

Tách ra ví dụ
'test' 2.021

Hình dung

cifar10_1/v6

  • Mô tả cấu hình : Nó bắt nguồn từ việc phân bổ từ khóa được cải thiện một chút, chính xác là cân bằng lớp. Phiên bản này của bộ dữ liệu tương ứng với các kết quả trong Phụ lục D của bài báo của chúng tôi. v6 chứa 2.000 hình ảnh.

  • Kích thước tải xuống : 5.87 MiB

  • Kích thước tập dữ liệu : 4.40 MiB

  • Chia tách :

Tách ra ví dụ
'test' 2.000

Hình dung