web_graph

  • תיאור :

מערך נתונים זה מכיל גרף דל המייצג את מבנה קישורי האינטרנט עבור תת-קבוצה קטנה של האינטרנט.

זו גרסה מעובדת של סריקה בודדת שבוצעה על ידי CommonCrawl בשנת 2021, שבה אנו מפשירים הכל ושומרים רק על מבנה הקישור->קישורים החוצה. מערך הנתונים הסופי הוא בעצם פורמט int -> List[int] כאשר כל מזהה שלם מייצג כתובת אתר.

כמו כן, על מנת להגדיל את הערך של משאב זה, יצרנו 6 גרסאות שונות של WebGraph, כל אחת מהן משתנה בדפוס הדלילות ובמקום. נקטנו את שלבי העיבוד הבאים, לפי הסדר:

  • התחלנו עם קבצי WAT מיוני 2021.
  • מכיוון שהקישורים היוצאים ב-HTTP-Response-Metadata מאוחסנים כנתיבים יחסיים, אנו ממירים אותם לנתיבים מוחלטים באמצעות urllib לאחר אימות כל קישור.
  • כדי ללמוד גרפים ספציפיים לאזור, אנו מסננים יותר על סמך 2 תחומים ברמה העליונה: 'de' ו-'in', כל אחד מייצר גרף בסדר גודל פחות מספר צמתים.
  • לגרפים האלה עדיין יכולים להיות דפוסי דלילות שרירותיים וקישורים משתלשלים. לפיכך אנו מסננים עוד יותר את הצמתים בכל גרף כך שיהיו מינימום של K ∈ [10, 50] קישורים וקישורים יוצאים. שים לב שאנו מבצעים את העיבוד הזה רק פעם אחת, ולכן זה עדיין הערכה, כלומר הגרף המתקבל עשוי להכיל צמתים עם פחות מ-K קישורים.
  • באמצעות מסנני מיקום וגם מסנני ספירה, אנו משלימים 6 גרסאות של מערך נתונים של WebGraph, המסוכמות בטבלה הבאה.
גִרְסָה דומיין ברמה העליונה ספירה מינימלית מספר צמתים מספר קצוות
דליל 10 365.4 מיליון 30B
צָפוּף 50 136.5 מיליון 22ב
דל-דל דה 10 19.7 מיליון 1.19B
דה-צפוף דה 50 5.7 מיליון 0.82B
בדלילות ב 10 1.5 מיליון 0.14B
בצפיפות ב 50 0.5 מיליון 0.12B

לכל הגרסאות של מערך הנתונים יש את התכונות הבאות:

  • "row_tag": מזהה ייחודי של השורה (קישור מקור).
  • "col_tag": רשימה של מזהים ייחודיים של עמודות שאינן אפס (קישורי יעד).
  • "gt_tag": רשימה של מזהים ייחודיים של עמודות שאינן אפס המשמשות כאמת קרקע (קישורי יעד), ריקה עבור פיצול רכבת/רכבת_ט.

  • דף הבית : https://arxiv.org/abs/2112.02194

  • קוד מקור : tfds.structured.web_graph.WebGraph

  • גרסאות :

    • 1.0.0 (ברירת מחדל): שחרור ראשוני.
  • גודל הורדה : Unknown size

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • מבנה תכונה :

FeaturesDict({
    'col_tag': Sequence(int64),
    'gt_tag': Sequence(int64),
    'row_tag': int64,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
col_tag רצף (טנזור) (אף אחד,) int64
gt_tag רצף (טנזור) (אף אחד,) int64
row_tag מוֹתֵחַ int64
@article{mehta2021alx,
    title={ALX: Large Scale Matrix Factorization on TPUs},
    author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
    year={2021},
    eprint={2112.02194},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

web_graph/sparse (תצורת ברירת מחדל)

  • תיאור תצורה : WebGraph-sparse מכיל כ-30B קצוות וכ-365M צמתים.

  • גודל ערכת נתונים: 273.38 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 39,871,321
'train' 372,049,054
'train_t' 410,867,007

web_graph/dense

  • תיאור תצורה : WebGraph-dense מכיל כ-22B קצוות וכ-136.5M צמתים.

  • גודל מערך נתונים : 170.87 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 13,256,496
'train' 122,815,749
'train_t' 136,019,364

web_graph/de-sparse

  • תיאור תצורה : WebGraph-de-sparse מכיל בסביבות 1.19B קצוות וסביב 19.7M צמתים.

  • גודל מערך נתונים : 10.25 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,903,443
'train' 17,688,633
'train_t' 19,566,045

web_graph/de-dense

  • תיאור תצורה : WebGraph-de-dense מכיל בסביבות 0.82B קצוות וסביב 5.7M צמתים.

  • גודל מערך נתונים : 5.90 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 553,270
'train' 5,118,902
'train_t' 5,672,473

web_graph/in-sparse

  • תיאור תצורה : WebGraph-de-sparse מכיל בסביבות 0.14B קצוות וכ-1.5 מיליון צמתים.

  • גודל ערכת נתונים: 960.57 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 140,313
'train' 1,309,063
'train_t' 1,445,042

web_graph/in-dense

  • תיאור תצורה : WebGraph-de-dense מכיל בסביבות 0.12B קצוות וכ-0.5M צמתים.

  • גודל ערכת נתונים: 711.72 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 47,894
'train' 443,786
'train_t' 491,634