cifar10_1

CIFAR-10.1 データセットは、CIFAR-10 の新しいテスト セットです。 CIFAR-10.1 には、元の CIFAR-10 データセットに関する数年間の調査の後にサンプリングされた約 2,000 の新しいテスト画像が含まれています。 CIFAR-10.1 のデータ収集は、元のデータセットに対する分布シフトを最小限に抑えるように設計されました。 CIFAR-10.1 の作成については、論文「Do CIFAR-10 Classifiers Generalize to CIFAR-10?」で説明しています。 CIFAR-10.1 の画像は、TinyImages データセットのサブセットです。現在、CIFAR-10.1 データセットには、v4 と v6 の 2 つのバージョンがあります。

FeaturesDict({
    'image': Image(shape=(32, 32, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
画像画像(32, 32, 3) uint8
ラベルクラスラベルint64
@article{recht2018cifar10.1,
  author = {Benjamin Recht and Rebecca Roelofs and Ludwig Schmidt and Vaishaal Shankar},
  title = {Do CIFAR-10 Classifiers Generalize to CIFAR-10?},
  year = {2018},
  note = {\url{https://arxiv.org/abs/1806.00451} },
}

@article{torralba2008tinyimages,
  author = {Antonio Torralba and Rob Fergus and William T. Freeman},
  journal = {IEEE Transactions on Pattern Analysis and Machine Intelligence},
  title = {80 Million Tiny Images: A Large Data Set for Nonparametric Object and Scene Recognition},
  year = {2008},
  volume = {30},
  number = {11},
  pages = {1958-1970}
}

cifar10_1/v4 (デフォルト構成)

  • 構成の説明: これは、分類器をテストしたデータセットの最初のバージョンです。前述のように、これにより、v4 データセットは評価する分類子から独立したものになります。私たちの論文の主要なセクションで報告されている数値は、このバージョンのデータセットを使用しています。各クラスの上位 25 個の TinyImages キーワードから作成されたため、クラスの不均衡がわずかに生じました。最大の違いは、船がテスト セットの 10% ではなく 8% しか占めていないことです。 v4 には 2,021 個の画像が含まれています。

  • ダウンロードサイズ: 5.93 MiB

  • データセットのサイズ: 4.46 MiB

  • スプリット:

スプリット
'test' 2,021

視覚化

cifar10_1/v6

  • 構成の説明: これは、正確にクラス バランスがとれた、わずかに改善されたキーワード割り当てから派生したものです。このバージョンのデータセットは、論文の付録 D の結果に対応しています。 v6 には 2,000 個の画像が含まれています。

  • ダウンロードサイズ: 5.87 MiB

  • データセットのサイズ: 4.40 MiB

  • スプリット:

スプリット
'test' 2,000

視覚化