체로 1m

  • 설명 :

유클리드 거리를 사용하여 대략적인 가장 가까운 이웃 검색을 위한 사전 훈련된 임베딩. 이 데이터 세트는 두 개의 분할로 구성됩니다.

  1. '데이터베이스': 1,000,000개의 데이터 포인트로 구성되며 각각에는 '임베딩'(128 floats), '인덱스'(int64), '이웃'(빈 목록) 기능이 있습니다.
  2. '테스트': 10,000개의 데이터 포인트로 구성되며 각각에는 '임베딩'(128 부동 소수점), '인덱스'(int64), '이웃'(데이터베이스에서 가장 가까운 이웃의 '인덱스' 및 '거리' 목록) 기능이 있습니다. )
나뉘다
'database' 1,000,000
'test' 10,000
  • 기능 구조 :
FeaturesDict({
    'embedding': Tensor(shape=(128,), dtype=float32),
    'index': Scalar(shape=(), dtype=int64),
    'neighbors': Sequence({
        'distance': Scalar(shape=(), dtype=float32),
        'index': Scalar(shape=(), dtype=int64),
    }),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
임베딩 텐서 (128,) float32
인덱스 스칼라 int64 분할 내에서 색인을 생성합니다.
이웃 순서 테스트 분할에만 사용할 수 있는 계산된 이웃입니다.
이웃/거리 스칼라 float32 이웃 거리.
이웃/인덱스 스칼라 int64 이웃 색인.
  • 인용 :
@article{jegou2010product,
  title={Product quantization for nearest neighbor search},
  author={Jegou, Herve and Douze, Matthijs and Schmid, Cordelia},
  journal={IEEE transactions on pattern analysis and machine intelligence},
  volume={33},
  number={1},
  pages={117--128},
  year={2010},
  publisher={IEEE}
}