1분 선별

설명 :

유클리드 거리를 사용하여 대략적인 최근접 탐색을 위해 사전 훈련된 임베딩입니다. 이 데이터 세트는 두 가지 분할로 구성됩니다.

'데이터베이스': 1,000,000개의 데이터 포인트로 구성되며 각 데이터 포인트에는 '임베딩'(128개 부동 소수점), '인덱스'(int64), '이웃'(빈 목록) 기능이 있습니다.
'테스트': 10,000개의 데이터 포인트로 구성되며 각각은 '임베딩'(128개의 부동 소수점), '인덱스'(int64), '이웃'(데이터베이스에서 가장 가까운 이웃의 '인덱스' 및 '거리' 목록)을 갖습니다. )

홈페이지 : http://corpus-texmex.irisa.fr/
소스 코드 : tfds.datasets.sift1m.Builder
버전 :
- 1.0.0 (기본값): 최초 릴리스입니다.
다운로드 크기 : 500.80 MiB
데이터세트 크기 : 589.49 MiB
자동 캐시 ( 문서 ): 아니요
분할 :

나뉘다	예
`'database'`	1,000,000
`'test'`	10,000

기능 구조 :

FeaturesDict({
    'embedding': Tensor(shape=(128,), dtype=float32),
    'index': Scalar(shape=(), dtype=int64, description=Index within the split.),
    'neighbors': Sequence({
        'distance': Scalar(shape=(), dtype=float32, description=Neighbor distance.),
        'index': Scalar(shape=(), dtype=int64, description=Neighbor index.),
    }),
})

기능 문서 :

특징	수업	모양	Dtype	설명
	특징Dict
삽입	텐서	(128,)	float32
색인	스칼라		정수64	분할 내의 인덱스입니다.
이웃	순서			테스트 분할에만 사용할 수 있는 계산된 이웃입니다.
이웃/거리	스칼라		float32	이웃 거리.
이웃/인덱스	스칼라		정수64	이웃 색인.

감독되는 키 ( as_supervised doc 참조): None
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):

인용 :

@article{jegou2010product,
  title={Product quantization for nearest neighbor search},
  author={Jegou, Herve and Douze, Matthijs and Schmid, Cordelia},
  journal={IEEE transactions on pattern analysis and machine intelligence},
  volume={33},
  number={1},
  pages={117--128},
  year={2010},
  publisher={IEEE}
}

1분 선별 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

1분 선별