- תיאור :
מערך נתונים זה מכיל גרף דל המייצג את מבנה קישורי האינטרנט עבור תת-קבוצה קטנה של האינטרנט.
זו גרסה מעובדת של סריקה בודדת שבוצעה על ידי CommonCrawl בשנת 2021, שבה אנו מפשירים הכל ושומרים רק על מבנה הקישור->קישורים החוצה. מערך הנתונים הסופי הוא בעצם פורמט int -> List[int] כאשר כל מזהה שלם מייצג כתובת אתר.
כמו כן, על מנת להגדיל את הערך של משאב זה, יצרנו 6 גרסאות שונות של WebGraph, כל אחת מהן משתנה בדפוס הדלילות ובמקום. נקטנו את שלבי העיבוד הבאים, לפי הסדר:
- התחלנו עם קבצי WAT מיוני 2021.
- מכיוון שהקישורים היוצאים ב-HTTP-Response-Metadata מאוחסנים כנתיבים יחסיים, אנו ממירים אותם לנתיבים מוחלטים באמצעות urllib לאחר אימות כל קישור.
- כדי ללמוד גרפים ספציפיים לאזור, אנו מסננים יותר על סמך 2 תחומים ברמה העליונה: 'de' ו-'in', כל אחד מייצר גרף בסדר גודל פחות מספר צמתים.
- לגרפים האלה עדיין יכולים להיות דפוסי דלילות שרירותיים וקישורים משתלשלים. לפיכך אנו מסננים עוד יותר את הצמתים בכל גרף כך שיהיו מינימום של K ∈ [10, 50] קישורים וקישורים יוצאים. שים לב שאנו מבצעים את העיבוד הזה רק פעם אחת, ולכן זה עדיין הערכה, כלומר הגרף המתקבל עשוי להכיל צמתים עם פחות מ-K קישורים.
- באמצעות מסנני מיקום וגם מסנני ספירה, אנו משלימים 6 גרסאות של מערך נתונים של WebGraph, המסוכמות בטבלה הבאה.
גִרְסָה | דומיין ברמה העליונה | ספירה מינימלית | מספר צמתים | מספר קצוות |
---|---|---|---|---|
דליל | 10 | 365.4 מיליון | 30B | |
צָפוּף | 50 | 136.5 מיליון | 22ב | |
דל-דל | דה | 10 | 19.7 מיליון | 1.19B |
דה-צפוף | דה | 50 | 5.7 מיליון | 0.82B |
בדלילות | ב | 10 | 1.5 מיליון | 0.14B |
בצפיפות | ב | 50 | 0.5 מיליון | 0.12B |
לכל הגרסאות של מערך הנתונים יש את התכונות הבאות:
- "row_tag": מזהה ייחודי של השורה (קישור מקור).
- "col_tag": רשימה של מזהים ייחודיים של עמודות שאינן אפס (קישורי יעד).
"gt_tag": רשימה של מזהים ייחודיים של עמודות שאינן אפס המשמשות כאמת קרקע (קישורי יעד), ריקה עבור פיצול רכבת/רכבת_ט.
דף הבית : https://arxiv.org/abs/2112.02194
קוד מקור :
tfds.structured.web_graph.WebGraph
גרסאות :
-
1.0.0
(ברירת מחדל): שחרור ראשוני.
-
גודל הורדה :
Unknown size
שמירה אוטומטית במטמון ( תיעוד ): לא
מבנה תכונה :
FeaturesDict({
'col_tag': Sequence(int64),
'gt_tag': Sequence(int64),
'row_tag': int64,
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
col_tag | רצף (טנזור) | (אף אחד,) | int64 | |
gt_tag | רצף (טנזור) | (אף אחד,) | int64 | |
row_tag | מוֹתֵחַ | int64 |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@article{mehta2021alx,
title={ALX: Large Scale Matrix Factorization on TPUs},
author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
year={2021},
eprint={2112.02194},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
web_graph/sparse (תצורת ברירת מחדל)
תיאור תצורה : WebGraph-sparse מכיל כ-30B קצוות וכ-365M צמתים.
גודל ערכת נתונים:
273.38 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 39,871,321 |
'train' | 372,049,054 |
'train_t' | 410,867,007 |
- דוגמאות ( tfds.as_dataframe ):
web_graph/dense
תיאור תצורה : WebGraph-dense מכיל כ-22B קצוות וכ-136.5M צמתים.
גודל מערך נתונים :
170.87 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 13,256,496 |
'train' | 122,815,749 |
'train_t' | 136,019,364 |
- דוגמאות ( tfds.as_dataframe ):
web_graph/de-sparse
תיאור תצורה : WebGraph-de-sparse מכיל בסביבות 1.19B קצוות וסביב 19.7M צמתים.
גודל מערך נתונים :
10.25 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 1,903,443 |
'train' | 17,688,633 |
'train_t' | 19,566,045 |
- דוגמאות ( tfds.as_dataframe ):
web_graph/de-dense
תיאור תצורה : WebGraph-de-dense מכיל בסביבות 0.82B קצוות וסביב 5.7M צמתים.
גודל מערך נתונים :
5.90 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 553,270 |
'train' | 5,118,902 |
'train_t' | 5,672,473 |
- דוגמאות ( tfds.as_dataframe ):
web_graph/in-sparse
תיאור תצורה : WebGraph-de-sparse מכיל בסביבות 0.14B קצוות וכ-1.5 מיליון צמתים.
גודל ערכת נתונים:
960.57 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 140,313 |
'train' | 1,309,063 |
'train_t' | 1,445,042 |
- דוגמאות ( tfds.as_dataframe ):
web_graph/in-dense
תיאור תצורה : WebGraph-de-dense מכיל בסביבות 0.12B קצוות וכ-0.5M צמתים.
גודל ערכת נתונים:
711.72 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 47,894 |
'train' | 443,786 |
'train_t' | 491,634 |
- דוגמאות ( tfds.as_dataframe ):