- תיאור :
וקטורים גלובליים מאומנים מראש להטמעות מילים (GloVe) לחיפוש משוער של השכנים הקרובים ביותר. מערך נתונים זה מורכב משני פיצולים:
- 'בסיס נתונים': מורכב מ-1,183,514 נקודות נתונים, לכל אחת יש תכונות: 'הטמעה' (100 צפים), 'אינדקס' (int64), 'שכנים' (רשימה ריקה).
- 'מבחן': מורכב מ-10,000 נקודות נתונים, לכל אחת יש תכונות: 'הטבעה' (100 צפים), 'אינדקס' (int64), 'שכנים' (רשימת 'אינדקס' ו'מרחק' של השכנים הקרובים ביותר במסד הנתונים. )
דף הבית : https://nlp.stanford.edu/projects/glove/
קוד מקור :
tfds.nearest_neighbors.glove_100_angular.Glove100Angular
גרסאות :
-
1.0.0
(ברירת מחדל): שחרור ראשוני.
-
גודל הורדה :
462.93 MiB
גודל מערך נתונים :
567.90 MiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'database' | 1,183,514 |
'test' | 10,000 |
- מבנה תכונה :
FeaturesDict({
'embedding': Tensor(shape=(100,), dtype=float32),
'index': Scalar(shape=(), dtype=int64, description=Index within the split.),
'neighbors': Sequence({
'distance': Scalar(shape=(), dtype=float32, description=Neighbor distance.),
'index': Scalar(shape=(), dtype=int64, description=Neighbor index.),
}),
})
- תיעוד תכונה :
תכונה | מַחלָקָה | צוּרָה | Dtype | תֵאוּר |
---|---|---|---|---|
FeaturesDict | ||||
הטבעה | מוֹתֵחַ | (100,) | לצוף32 | |
מַדָד | סקלר | int64 | אינדקס בתוך הפיצול. | |
שכנים | רֶצֶף | השכנים המחושבים, שזמינים רק לפיצול המבחן. | ||
שכנים/מרחק | סקלר | לצוף32 | מרחק שכן. | |
שכנים/אינדקס | סקלר | int64 | מדד השכנים. |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@inproceedings{pennington2014glove,
author = {Jeffrey Pennington and Richard Socher and Christopher D. Manning},
booktitle = {Empirical Methods in Natural Language Processing (EMNLP)},
title = {GloVe: Global Vectors for Word Representation},
year = {2014},
pages = {1532--1543},
url = {http://www.aclweb.org/anthology/D14-1162},
}