- Descrição :
Vetores globais pré-treinados para incorporações de representação de palavras (GloVe) para pesquisa aproximada do vizinho mais próximo. Este conjunto de dados consiste em duas divisões:
- 'banco de dados': consiste em 1.183.514 pontos de dados, cada um possui recursos: 'incorporação' (100 pontos flutuantes), 'índice' (int64), 'vizinhos' (lista vazia).
- 'teste': consiste em 10.000 pontos de dados, cada um possui recursos: 'incorporação' (100 flutuantes), 'índice' (int64), 'vizinhos' (lista de 'índice' e 'distância' dos vizinhos mais próximos no banco de dados. )
Página inicial : https://nlp.stanford.edu/projects/glove/
Código fonte :
tfds.nearest_neighbors.glove_100_angular.Glove100Angular
Versões :
-
1.0.0
(padrão): versão inicial.
-
Tamanho do download :
462.93 MiB
Tamanho do conjunto de dados :
567.90 MiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'database' | 1.183.514 |
'test' | 10.000 |
- Estrutura de recursos :
FeaturesDict({
'embedding': Tensor(shape=(100,), dtype=float32),
'index': Scalar(shape=(), dtype=int64, description=Index within the split.),
'neighbors': Sequence({
'distance': Scalar(shape=(), dtype=float32, description=Neighbor distance.),
'index': Scalar(shape=(), dtype=int64, description=Neighbor index.),
}),
})
- Documentação de recursos :
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
incorporação | Tensor | (100,) | float32 | |
índice | Escalar | int64 | Índice dentro da divisão. | |
vizinhos | Sequência | Os vizinhos calculados, que estão disponíveis apenas para a divisão de teste. | ||
vizinhos/distância | Escalar | float32 | Distância do vizinho. | |
vizinhos/índice | Escalar | int64 | Índice vizinho. |
Chaves supervisionadas (consulte o documento
as_supervised
):None
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ):
- Citação :
@inproceedings{pennington2014glove,
author = {Jeffrey Pennington and Richard Socher and Christopher D. Manning},
booktitle = {Empirical Methods in Natural Language Processing (EMNLP)},
title = {GloVe: Global Vectors for Word Representation},
year = {2014},
pages = {1532--1543},
url = {http://www.aclweb.org/anthology/D14-1162},
}