- توضیحات :
این مجموعه داده شامل یک نمودار پراکنده است که ساختار پیوند وب را برای یک زیر مجموعه کوچک از وب نشان می دهد.
این یک نسخه پردازش شده از یک خزیدن منفرد است که توسط CommonCrawl در سال 2021 انجام شد که در آن همه چیز را حذف می کنیم و فقط ساختار link->outlinks را نگه می داریم. مجموعه داده نهایی اساساً فرمت int -> List[int] است که هر شناسه عدد صحیح نشان دهنده یک URL است.
همچنین، به منظور افزایش ارزش این منبع، 6 نسخه مختلف از WebGraph را ایجاد کردیم که هر کدام از نظر الگوی پراکندگی و محلی متفاوت هستند. ما مراحل پردازش زیر را به ترتیب انجام دادیم:
- ما با فایلهای WAT از خزیدن ژوئن ۲۰۲۱ شروع کردیم.
- از آنجایی که لینک های خروجی در HTTP-Response-Metadata به عنوان مسیرهای نسبی ذخیره می شوند، پس از تأیید اعتبار هر پیوند، آنها را با استفاده از urllib به مسیرهای مطلق تبدیل می کنیم.
- برای مطالعه نمودارهای محلی خاص، ما بر اساس 2 حوزه سطح بالا فیلتر می کنیم: 'de' و 'in'، که هر کدام یک نمودار با مرتبه بزرگی تعداد گره ها کمتر تولید می کنند.
- این نمودارها هنوز هم می توانند الگوهای پراکنده دلخواه و پیوندهای آویزان داشته باشند. بنابراین، گرهها را در هر گراف فیلتر میکنیم تا حداقل K∈ [10، 50] پیوندهای داخلی و خروجی داشته باشند. توجه داشته باشید که ما فقط یک بار این پردازش را انجام می دهیم، بنابراین این هنوز یک تقریب است، یعنی نمودار حاصل ممکن است گره هایی با پیوندهای کمتر از K داشته باشد.
- با استفاده از فیلترهای محلی و شمارش، ما 6 نسخه از مجموعه داده WebGraph را که در جدول فولینگ خلاصه شده اند، نهایی می کنیم.
نسخه | دامنه سطح بالا | تعداد حداقل | تعداد گره ها | تعداد لبه ها |
---|---|---|---|---|
پراکنده | 10 | 365.4 میلیون | 30B | |
متراکم | 50 | 136.5 میلیون | 22B | |
پراکنده کردن | de | 10 | 19.7 میلیون | 1.19B |
متراکم کردن | de | 50 | 5.7 میلیون | 0.82B |
به صورت پراکنده | که در | 10 | 1.5 میلیون | 0.14B |
متراکم | که در | 50 | 0.5 میلیون | 0.12B |
تمام نسخه های مجموعه داده دارای ویژگی های زیر هستند:
- "row_tag": یک شناسه منحصر به فرد ردیف (لینک منبع).
- "col_tag": فهرستی از شناسههای منحصربهفرد ستونهای غیر صفر (بهترین پیوندهای خروجی).
"gt_tag": فهرستی از شناسههای منحصربهفرد ستونهای غیرصفری که بهعنوان حقیقت زمین (پایینترین پیوندهای خروجی) استفاده میشوند، خالی برای تقسیم قطار/train_t.
صفحه اصلی : https://arxiv.org/abs/2112.02194
کد منبع :
tfds.structured.web_graph.WebGraph
نسخه ها :
-
1.0.0
(پیش فرض): انتشار اولیه.
-
اندازه دانلود :
Unknown size
ذخیره خودکار ( اسناد ): خیر
ساختار ویژگی :
FeaturesDict({
'col_tag': Sequence(int64),
'gt_tag': Sequence(int64),
'row_tag': int64,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
col_tag | دنباله (تنسور) | (هیچ یک،) | int64 | |
gt_tag | دنباله (تنسور) | (هیچ یک،) | int64 | |
row_tag | تانسور | int64 |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@article{mehta2021alx,
title={ALX: Large Scale Matrix Factorization on TPUs},
author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
year={2021},
eprint={2112.02194},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
web_graph/sparse (پیکربندی پیشفرض)
توضیحات پیکربندی : WebGraph-sparse شامل حدود 30B لبه و حدود 365M گره است.
حجم مجموعه داده :
273.38 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 39,871,321 |
'train' | 372,049,054 |
'train_t' | 410,867,007 |
- مثالها ( tfds.as_dataframe ):
web_graph / متراکم
توضیحات پیکربندی : WebGraph-tent شامل حدود 22B لبه و حدود 136.5M گره است.
حجم مجموعه داده :
170.87 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 13,256,496 |
'train' | 122,815,749 |
'train_t' | 136,019,364 |
- مثالها ( tfds.as_dataframe ):
web_graph/de-sparse
توضیحات پیکربندی : WebGraph-de-sparse شامل حدود 1.19B یال و حدود 19.7M گره است.
حجم مجموعه داده :
10.25 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 1,903,443 |
'train' | 17,688,633 |
'train_t' | 19,566,045 |
- مثالها ( tfds.as_dataframe ):
web_graph/de-dense
توضیحات پیکربندی : WebGraph-de-dense شامل حدود 0.82B لبه و حدود 5.7M گره است.
حجم مجموعه داده :
5.90 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 553270 |
'train' | 5,118,902 |
'train_t' | 5,672,473 |
- مثالها ( tfds.as_dataframe ):
web_graph/in-sparse
توضیحات پیکربندی : WebGraph-de-sparse شامل حدود 0.14B لبه و حدود 1.5M گره است.
حجم مجموعه داده :
960.57 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 140,313 |
'train' | 1,309,063 |
'train_t' | 1,445,042 |
- مثالها ( tfds.as_dataframe ):
web_graph/در متراکم
توضیحات پیکربندی : WebGraph-de-dense شامل حدود 0.12B لبه و حدود 0.5M گره است.
حجم مجموعه داده :
711.72 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 47,894 |
'train' | 443786 |
'train_t' | 491,634 |
- مثالها ( tfds.as_dataframe ):