gant100_angular

  • Descriptif :

Vecteurs globaux pré-formés pour les incorporations de représentation de mots (GloVe) pour une recherche approximative du voisin le plus proche. Cet ensemble de données se compose de deux divisions :

  1. 'database' : se compose de 1 183 514 points de données, chacun a des fonctionnalités : 'embedding' (100 flottants), 'index' (int64), 'neighbors' (liste vide).
  2. 'test' : consiste en 10 000 points de données, chacun a des caractéristiques : 'embedding' (100 floats), 'index' (int64), 'neighbors' (liste de 'index' et 'distance' des voisins les plus proches dans la base de données. )
Diviser Exemples
'database' 1 183 514
'test' 10 000
  • Structure des fonctionnalités :
FeaturesDict({
    'embedding': Tensor(shape=(100,), dtype=float32),
    'index': Scalar(shape=(), dtype=int64),
    'neighbors': Sequence({
        'distance': Scalar(shape=(), dtype=float32),
        'index': Scalar(shape=(), dtype=int64),
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
incorporation Tenseur (100,) float32
indice Scalaire int64 Index dans la scission.
voisins Séquence Les voisins calculés, qui ne sont disponibles que pour le fractionnement de test.
voisins/distance Scalaire float32 Éloignement voisin.
voisins/index Scalaire int64 Indice voisin.
  • Citation :
@inproceedings{pennington2014glove,
  author = {Jeffrey Pennington and Richard Socher and Christopher D. Manning},
  booktitle = {Empirical Methods in Natural Language Processing (EMNLP)},
  title = {GloVe: Global Vectors for Word Representation},
  year = {2014},
  pages = {1532--1543},
  url = {http://www.aclweb.org/anthology/D14-1162},
}