s3o4d

Bộ dữ liệu đầu tiên được mô tả trong "Stanford 3D Objects" của giấy gỡ rối bởi không gian con Diffusion . Các dữ liệu bao gồm 100.000 render mỗi đối tượng Bunny và Dragon từ Stanford 3D quét Repository . Nhiều đối tượng có thể được thêm vào trong tương lai, nhưng chỉ có Bunny và Dragon được sử dụng trong bài báo. Mỗi đối tượng được hiển thị với ánh sáng được lấy mẫu đồng nhất từ ​​một điểm trên hình cầu 2 và xoay 3D được lấy mẫu đồng nhất. Các trạng thái tiềm ẩn thực sự được cung cấp dưới dạng mảng NumPy cùng với hình ảnh. Ánh sáng được cung cấp dưới dạng 3 vector với định mức đơn vị, trong khi phép quay được cung cấp cả dưới dạng quaternion và ma trận trực giao 3x3.

Có rất nhiều điểm tương đồng giữa S3O4D và hiện bộ dữ liệu chuẩn ML như NORB , 3D Ghế , 3D Shapes và nhiều người khác, mà còn bao gồm render của một tập các đối tượng dưới tư thế và chiếu sáng điều kiện khác nhau. Tuy nhiên, không ai trong số những bộ dữ liệu hiện có bao gồm đa dạng đầy đủ của phép quay trong không gian 3D - hầu hết chỉ bao gồm một tập hợp các thay đổi độ cao và góc phương vị. Hình ảnh S3O4D được lấy mẫu đồng nhất và độc lập với toàn bộ không gian xoay và chiếu sáng, có nghĩa là tập dữ liệu chứa các đối tượng lộn ngược và được chiếu sáng từ phía sau hoặc bên dưới. Chúng tôi tin rằng điều này làm cho S3O4D phù hợp duy nhất để nghiên cứu về các mô hình tổng quát trong đó không gian tiềm ẩn có cấu trúc liên kết không tầm thường, cũng như cho các phương pháp học tập đa tạp chung trong đó độ cong của đa tạp là quan trọng.

Tách ra Các ví dụ
'bunny_test' 20.000
'bunny_train' 80.000
'dragon_test' 20.000
'dragon_train' 80.000
  • Các tính năng:
FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=tf.float32),
    'image': Image(shape=(256, 256, 3), dtype=tf.uint8),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=tf.float32),
    'pose_quat': Tensor(shape=(4,), dtype=tf.float32),
})

Hình dung

  • Trích dẫn:
@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}