web_graph

説明:

このデータセットには、Web の小さなサブセットの Web リンク構造を表すスパースグラフが含まれています。

これは、2021 年に CommonCrawl によって実行された単一のクロールの処理済みバージョンであり、すべてを取り除き、link->outlinks 構造のみを保持します。最終的なデータセットは基本的に int -> List[int] 形式で、各整数 ID が URL を表します。

また、このリソースの価値を高めるために、それぞれスパースパターンとロケールが異なる 6 つの異なるバージョンの WebGraph を作成しました。以下の処理手順を順番に実行しました。

2021 年 6 月のクロールから WAT ファイルから始めました。
HTTP-Response-Metadata のアウトリンクは相対パスとして保存されているため、各リンクを検証した後、urllib を使用して絶対パスに変換します。
ロケール固有のグラフを調べるために、2 つの最上位ドメイン 'de' と 'in' に基づいてさらにフィルター処理し、それぞれがノード数を 1 桁減らしたグラフを生成します。
これらのグラフには、任意のスパースパターンとダングリングリンクが含まれる可能性があります。したがって、各グラフのノードをさらにフィルタリングして、K ∈ [10, 50] のインリンクとアウトリンクが最小になるようにします。この処理は 1 回だけ行うことに注意してください。したがって、これはまだ概算です。つまり、結果のグラフには K 個未満のリンクを持つノードが含まれる可能性があります。
ロケールフィルターとカウントフィルターの両方を使用して、6 つのバージョンの WebGraph データセットを完成させ、次の表にまとめます。

バージョン	トップレベルドメイン	最小カウント	ノード数	エッジ数
まばらな		10	365.4M	30B
密集		50	136.5M	22B
逆スパース	で	10	19.7M	1.19B
密度の低い	で	50	5.7M	0.82B
スパース	の	10	1.5M	0.14B
密集した	の	50	0.5M	0.12B

データセットのすべてのバージョンには、次の機能があります。

"row_tag": 行の一意の識別子 (ソースリンク)。
"col_tag": ゼロ以外の列 (宛先アウトリンク) の一意の識別子のリスト。
"gt_tag": グラウンドトゥルース (宛先アウトリンク) として使用されるゼロ以外の列の一意の識別子のリストで、train/train_t 分割では空です。
ホームページ: https://arxiv.org/abs/2112.02194
ソースコード: tfds.structured.web_graph.WebGraph
バージョン:
- 1.0.0 (デフォルト): 初期リリース。
ダウンロードサイズ: サイズUnknown size
自動キャッシュ(ドキュメント): いいえ
機能構造:

FeaturesDict({
    'col_tag': Sequence(int64),
    'gt_tag': Sequence(int64),
    'row_tag': int64,
})

機能のドキュメント:

特徴	クラス	形	Dtype
	特徴辞書
col_tag	シーケンス(テンソル)	（なし、）	int64
gt_tag	シーケンス(テンソル)	（なし、）	int64
行タグ	テンソル		int64

監視されたキー( as_supervised docを参照): None
図( tfds.show_examples ): サポートされていません。
引用：

@article{mehta2021alx,
    title={ALX: Large Scale Matrix Factorization on TPUs},
    author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
    year={2021},
    eprint={2112.02194},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

web_graph/sparse (デフォルト設定)

構成の説明: WebGraph-sparse には、約 30B のエッジと約 365M のノードが含まれています。
データセットサイズ: 273.38 GiB
スプリット:

スプリット	例
`'test'`	39,871,321
`'train'`	372,049,054
`'train_t'`	410,867,007

例( tfds.as_dataframe ):

web_graph/密集

構成の説明: WebGraph-dense には、約 22B のエッジと約 136.5M のノードが含まれます。
データセットサイズ: 170.87 GiB
スプリット:

スプリット	例
`'test'`	13,256,496
`'train'`	122,815,749
`'train_t'`	136,019,364

例( tfds.as_dataframe ):

web_graph/デスパース

構成の説明: WebGraph-de-sparse には、約 1.19B のエッジと約 19.7M のノードが含まれています。
データセットサイズ: 10.25 GiB
スプリット:

スプリット	例
`'test'`	1,903,443
`'train'`	17,688,633
`'train_t'`	19,566,045

例( tfds.as_dataframe ):

web_graph/de-dense

構成の説明: WebGraph-de-dense には、約 0.82B のエッジと約 5.7M のノードが含まれています。
データセットサイズ: 5.90 GiB
スプリット:

スプリット	例
`'test'`	553,270
`'train'`	5,118,902
`'train_t'`	5,672,473

例( tfds.as_dataframe ):

web_graph/in-スパース

構成の説明: WebGraph-de-sparse には、約 0.14B のエッジと約 1.5M のノードが含まれています。
データセットのサイズ: 960.57 MiB
スプリット:

スプリット	例
`'test'`	140,313
`'train'`	1,309,063
`'train_t'`	1,445,042

例( tfds.as_dataframe ):

web_graph/密集

構成の説明: WebGraph-de-dense には、約 0.12B のエッジと約 0.5M のノードが含まれています。
データセットサイズ: 711.72 MiB
スプリット:

スプリット	例
`'test'`	47,894
`'train'`	443,786
`'train_t'`	491,634

例( tfds.as_dataframe ):

web_graph コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

web_graph/sparse (デフォルト設定)

web_graph/密集

web_graph/デスパース

web_graph/de-dense

web_graph/in-スパース

web_graph/密集

web_graph