s3o4d

論文Disentangling by Subspace Diffusionの「Stanford 3D Objects」セクションで最初に説明されたデータセット。このデータは、スタンフォード 3D スキャン リポジトリからのバニー オブジェクトとドラゴン オブジェクトのそれぞれ 100,000 のレンダリングで構成されています。今後さらにオブジェクトが追加される可能性がありますが、論文ではバニーとドラゴンのみが使用されています。各オブジェクトは、2 球上の点から均一にサンプリングされた照明と、均一にサンプリングされた 3D 回転でレンダリングされます。真の潜在状態は、画像とともに NumPy 配列として提供されます。照明は単位ノルムの 3 ベクトルとして与えられ、回転はクォータニオンと 3x3 直交行列の両方として提供されます。

S3O4D と、 NORB3D Chairs3D Shapesなどの既存の ML ベンチマーク データセットとの間には多くの類似点があり、さまざまなポーズや照明条件下での一連のオブジェクトのレンダリングも含まれています。ただし、これらの既存のデータセットには、3D の回転の完全な多様体が含まれているものはありません。ほとんどのデータセットには、仰角と方位角の変更のサブセットのみが含まれています。 S3O4D 画像は、回転とイルミネーションの全空間から均一かつ独立してサンプリングされます。つまり、データセットには、上下逆さまで背後または下から照らされたオブジェクトが含まれています。これにより、S3O4D は、潜在空間が非自明なトポロジを持つ生成モデルの研究や、多様体の曲率が重要な一般的な多様体学習方法に独自に適していると考えています。

スプリット
'bunny_test' 20,000
'bunny_train' 80,000
'dragon_test' 20,000
'dragon_train' 80,000
  • 機能構造:
FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=float32),
    'image': Image(shape=(256, 256, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=float32),
    'pose_quat': Tensor(shape=(4,), dtype=float32),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
イルミネーションテンソル(3) float32
画像画像(256, 256, 3) uint8
ラベルクラスラベルint64
ポーズマットテンソル(3,3) float32
pose_quatテンソル(4) float32

視覚化

  • 引用
@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}