đối xứng_solids, đối xứng_solids

  • Mô tả :

Đây là bộ dữ liệu ước tính tư thế, bao gồm các hình dạng 3D đối xứng trong đó nhiều hướng không thể phân biệt bằng mắt thường. Thách thức là dự đoán tất cả các hướng tương đương khi chỉ có một hướng được ghép nối với mỗi hình ảnh trong quá trình đào tạo (như trường hợp của hầu hết các bộ dữ liệu ước tính tư thế). Trái ngược với hầu hết các bộ dữ liệu ước tính tư thế, toàn bộ các định hướng tương đương có sẵn để đánh giá.

Tổng cộng có tám hình dạng, mỗi hình được hiển thị từ 50.000 điểm nhìn được phân bổ ngẫu nhiên đồng đều trên toàn bộ không gian xoay 3D. Năm trong số các hình dạng là không có gì đặc biệt -- tứ diện, khối lập phương, nhị thập diện, hình nón và hình trụ. Trong số đó, ba khối đa diện Platon (tứ diện, lập phương, nhị thập diện) được chú thích tương ứng với các đối xứng rời rạc 12-, 24- và 60 lần của chúng. Hình nón và hình trụ được chú thích với các đối xứng liên tục của chúng được rời rạc ở các khoảng 1 độ. Những đối xứng này được cung cấp để đánh giá; giám sát dự định chỉ là một vòng quay duy nhất với mỗi hình ảnh.

Ba hình dạng còn lại được đánh dấu bằng một tính năng phân biệt. Có một hình tứ diện có một mặt màu đỏ, một hình trụ có một chấm lệch tâm và một hình cầu có chữ X nằm trên đỉnh. Cho dù tính năng phân biệt có hiển thị hay không, không gian của các hướng có thể bị giảm. Chúng tôi không cung cấp tập hợp các phép quay tương đương cho các hình dạng này.

Mỗi ví dụ chứa

  • hình ảnh 224x224 RGB
  • một chỉ mục hình dạng để tập dữ liệu có thể được lọc theo hình dạng.
    Các chỉ số tương ứng với:

    • 0 = tứ diện
    • 1 = khối lập phương
    • 2 = icosahedron
    • 3 = hình nón
    • 4 = xi lanh
    • 5 = tứ diện được đánh dấu
    • 6 = xi lanh được đánh dấu
    • 7 = hình cầu được đánh dấu
  • xoay được sử dụng trong quá trình kết xuất, được biểu thị dưới dạng ma trận xoay 3x3

  • tập hợp các phép quay tương đương đã biết dưới dạng đối xứng, để đánh giá.

Trong trường hợp có ba hình được đánh dấu, đây chỉ là phép quay kết xuất.

Tách ra ví dụ
'test' 40.000
'train' 360.000
  • Cấu trúc tính năng :
FeaturesDict({
    'image': Image(shape=(224, 224, 3), dtype=uint8),
    'label_shape': ClassLabel(shape=(), dtype=int64, num_classes=8),
    'rotation': Tensor(shape=(3, 3), dtype=float32),
    'rotations_equivalent': Tensor(shape=(None, 3, 3), dtype=float32),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
hình ảnh Hình ảnh (224, 224, 3) uint8
nhãn_hình dạng LớpNhãn int64
Vòng xoay tenxơ (3, 3) phao32
luân_tương đương tenxơ (Không, 3, 3) phao32

Hình dung

  • trích dẫn :
@inproceedings{implicitpdf2021,
  title = {Implicit Representation of Probability Distributions on the Rotation
  Manifold},
  author = {Murphy, Kieran and Esteves, Carlos and Jampani, Varun and
  Ramalingam, Srikumar and Makadia, Ameesh}
  booktitle = {International Conference on Machine Learning}
  year = {2021}
}