glove100_angular

  • توضیحات :

جاسازی‌های بردار جهانی برای نمایش کلمه (GloVe) برای جستجوی تقریبی نزدیک‌ترین همسایه. این مجموعه داده از دو تقسیم تشکیل شده است:

  1. 'پایگاه داده': شامل 1,183,514 نقطه داده است که هر کدام دارای ویژگی هایی است: 'جاسازی' (100 شناور)، 'شاخص' (int64)، 'همسایگان' (فهرست خالی).
  2. "تست": شامل 10000 نقطه داده است که هر کدام دارای ویژگی هایی است: "جاسازی" (100 شناور)، "شاخص" (int64)، "همسایگان" (فهرست "شاخص" و "فاصله" نزدیکترین همسایگان در پایگاه داده. )
تقسیم کنید نمونه ها
'database' 1,183,514
'test' 10000
  • ساختار ویژگی :
FeaturesDict({
    'embedding': Tensor(shape=(100,), dtype=float32),
    'index': Scalar(shape=(), dtype=int64, description=Index within the split.),
    'neighbors': Sequence({
        'distance': Scalar(shape=(), dtype=float32, description=Neighbor distance.),
        'index': Scalar(shape=(), dtype=int64, description=Neighbor index.),
    }),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D توضیحات
FeaturesDict
تعبیه کردن تانسور (100،) float32
شاخص اسکالر int64 شاخص در شکاف.
همسایه ها دنباله همسایه های محاسبه شده، که فقط برای تقسیم تست در دسترس است.
همسایگان/فاصله اسکالر float32 فاصله همسایه
همسایگان/شاخص اسکالر int64 شاخص همسایه.
  • نقل قول :
@inproceedings{pennington2014glove,
  author = {Jeffrey Pennington and Richard Socher and Christopher D. Manning},
  booktitle = {Empirical Methods in Natural Language Processing (EMNLP)},
  title = {GloVe: Global Vectors for Word Representation},
  year = {2014},
  pages = {1532--1543},
  url = {http://www.aclweb.org/anthology/D14-1162},
}