web_graph

  • 説明:

このデータセットには、Web の小さなサブセットの Web リンク構造を表すスパース グラフが含まれています。

これは、2021 年に CommonCrawl によって実行された単一のクロールの処理済みバージョンであり、すべてを取り除き、link->outlinks 構造のみを保持します。最終的なデータセットは基本的に int -> List[int] 形式で、各整数 ID が URL を表します。

また、このリソースの価値を高めるために、それぞれスパース パターンとロケールが異なる 6 つの異なるバージョンの WebGraph を作成しました。以下の処理手順を順番に実行しました。

  • 2021 年 6 月のクロールから WAT ファイルから始めました。
  • HTTP-Response-Metadata のアウトリンクは相対パスとして保存されているため、各リンクを検証した後、urllib を使用して絶対パスに変換します。
  • ロケール固有のグラフを調べるために、2 つの最上位ドメイン 'de' と 'in' に基づいてさらにフィルター処理し、それぞれがノード数を 1 桁減らしたグラフを生成します。
  • これらのグラフには、任意のスパース パターンとダングリング リンクが含まれる可能性があります。したがって、各グラフのノードをさらにフィルタリングして、K ∈ [10, 50] のインリンクとアウトリンクが最小になるようにします。この処理は 1 回だけ行うことに注意してください。したがって、これはまだ概算です。つまり、結果のグラフには K 個未満のリンクを持つノードが含まれる可能性があります。
  • ロケール フィルターとカウント フィルターの両方を使用して、6 つのバージョンの WebGraph データセットを完成させ、次の表にまとめます。
バージョントップレベルドメイン最小カウントノード数エッジ数
まばらな10 365.4M 30B
密集50 136.5M 22B
逆スパース10 19.7M 1.19B
密度の低い50 5.7M 0.82B
スパース10 1.5M 0.14B
密集した50 0.5M 0.12B

データセットのすべてのバージョンには、次の機能があります。

  • "row_tag": 行の一意の識別子 (ソース リンク)。
  • "col_tag": ゼロ以外の列 (宛先アウトリンク) の一意の識別子のリスト。
  • "gt_tag": グラウンド トゥルース (宛先アウトリンク) として使用されるゼロ以外の列の一意の識別子のリストで、train/train_t 分割では空です。

  • ホームページ: https://arxiv.org/abs/2112.02194

  • ソース コード: tfds.structured.web_graph.WebGraph

  • バージョン:

    • 1.0.0 (デフォルト): 初期リリース。
  • ダウンロードサイズ: サイズUnknown size

  • 自動キャッシュ(ドキュメント): いいえ

  • 機能構造:

FeaturesDict({
    'col_tag': Sequence(int64),
    'gt_tag': Sequence(int64),
    'row_tag': int64,
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
col_tagシーケンス(テンソル) (なし、) int64
gt_tagシーケンス(テンソル) (なし、) int64
行タグテンソルint64
@article{mehta2021alx,
    title={ALX: Large Scale Matrix Factorization on TPUs},
    author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
    year={2021},
    eprint={2112.02194},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

web_graph/sparse (デフォルト設定)

  • 構成の説明: WebGraph-sparse には、約 30B のエッジと約 365M のノードが含まれています。

  • データセットサイズ: 273.38 GiB

  • スプリット:

スプリット
'test' 39,871,321
'train' 372,049,054
'train_t' 410,867,007

web_graph/密集

  • 構成の説明: WebGraph-dense には、約 22B のエッジと約 136.5M のノードが含まれます。

  • データセットサイズ: 170.87 GiB

  • スプリット:

スプリット
'test' 13,256,496
'train' 122,815,749
'train_t' 136,019,364

web_graph/デスパース

  • 構成の説明: WebGraph-de-sparse には、約 1.19B のエッジと約 19.7M のノードが含まれています。

  • データセットサイズ: 10.25 GiB

  • スプリット:

スプリット
'test' 1,903,443
'train' 17,688,633
'train_t' 19,566,045

web_graph/de-dense

  • 構成の説明: WebGraph-de-dense には、約 0.82B のエッジと約 5.7M のノードが含まれています。

  • データセットサイズ: 5.90 GiB

  • スプリット:

スプリット
'test' 553,270
'train' 5,118,902
'train_t' 5,672,473

web_graph/in-スパース

  • 構成の説明: WebGraph-de-sparse には、約 0.14B のエッジと約 1.5M のノードが含まれています。

  • データセットのサイズ: 960.57 MiB

  • スプリット:

スプリット
'test' 140,313
'train' 1,309,063
'train_t' 1,445,042

web_graph/密集

  • 構成の説明: WebGraph-de-dense には、約 0.12B のエッジと約 0.5M のノードが含まれています。

  • データセットサイズ: 711.72 MiB

  • スプリット:

スプリット
'test' 47,894
'train' 443,786
'train_t' 491,634