- 説明:
このデータセットには、Web の小さなサブセットの Web リンク構造を表すスパース グラフが含まれています。
これは、2021 年に CommonCrawl によって実行された単一のクロールの処理済みバージョンであり、すべてを取り除き、link->outlinks 構造のみを保持します。最終的なデータセットは基本的に int -> List[int] 形式で、各整数 ID が URL を表します。
また、このリソースの価値を高めるために、それぞれスパース パターンとロケールが異なる 6 つの異なるバージョンの WebGraph を作成しました。以下の処理手順を順番に実行しました。
- 2021 年 6 月のクロールから WAT ファイルから始めました。
- HTTP-Response-Metadata のアウトリンクは相対パスとして保存されているため、各リンクを検証した後、urllib を使用して絶対パスに変換します。
- ロケール固有のグラフを調べるために、2 つの最上位ドメイン 'de' と 'in' に基づいてさらにフィルター処理し、それぞれがノード数を 1 桁減らしたグラフを生成します。
- これらのグラフには、任意のスパース パターンとダングリング リンクが含まれる可能性があります。したがって、各グラフのノードをさらにフィルタリングして、K ∈ [10, 50] のインリンクとアウトリンクが最小になるようにします。この処理は 1 回だけ行うことに注意してください。したがって、これはまだ概算です。つまり、結果のグラフには K 個未満のリンクを持つノードが含まれる可能性があります。
- ロケール フィルターとカウント フィルターの両方を使用して、6 つのバージョンの WebGraph データセットを完成させ、次の表にまとめます。
バージョン | トップレベルドメイン | 最小カウント | ノード数 | エッジ数 |
---|---|---|---|---|
まばらな | 10 | 365.4M | 30B | |
密集 | 50 | 136.5M | 22B | |
逆スパース | で | 10 | 19.7M | 1.19B |
密度の低い | で | 50 | 5.7M | 0.82B |
スパース | の | 10 | 1.5M | 0.14B |
密集した | の | 50 | 0.5M | 0.12B |
データセットのすべてのバージョンには、次の機能があります。
- "row_tag": 行の一意の識別子 (ソース リンク)。
- "col_tag": ゼロ以外の列 (宛先アウトリンク) の一意の識別子のリスト。
"gt_tag": グラウンド トゥルース (宛先アウトリンク) として使用されるゼロ以外の列の一意の識別子のリストで、train/train_t 分割では空です。
ホームページ: https://arxiv.org/abs/2112.02194
ソース コード:
tfds.structured.web_graph.WebGraph
バージョン:
-
1.0.0
(デフォルト): 初期リリース。
-
ダウンロードサイズ: サイズ
Unknown size
自動キャッシュ(ドキュメント): いいえ
機能構造:
FeaturesDict({
'col_tag': Sequence(int64),
'gt_tag': Sequence(int64),
'row_tag': int64,
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
col_tag | シーケンス(テンソル) | (なし、) | int64 | |
gt_tag | シーケンス(テンソル) | (なし、) | int64 | |
行タグ | テンソル | int64 |
監視されたキー(
as_supervised
docを参照):None
図( tfds.show_examples ): サポートされていません。
引用:
@article{mehta2021alx,
title={ALX: Large Scale Matrix Factorization on TPUs},
author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
year={2021},
eprint={2112.02194},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
web_graph/sparse (デフォルト設定)
構成の説明: WebGraph-sparse には、約 30B のエッジと約 365M のノードが含まれています。
データセットサイズ:
273.38 GiB
スプリット:
スプリット | 例 |
---|---|
'test' | 39,871,321 |
'train' | 372,049,054 |
'train_t' | 410,867,007 |
- 例( tfds.as_dataframe ):
web_graph/密集
構成の説明: WebGraph-dense には、約 22B のエッジと約 136.5M のノードが含まれます。
データセットサイズ:
170.87 GiB
スプリット:
スプリット | 例 |
---|---|
'test' | 13,256,496 |
'train' | 122,815,749 |
'train_t' | 136,019,364 |
- 例( tfds.as_dataframe ):
web_graph/デスパース
構成の説明: WebGraph-de-sparse には、約 1.19B のエッジと約 19.7M のノードが含まれています。
データセットサイズ:
10.25 GiB
スプリット:
スプリット | 例 |
---|---|
'test' | 1,903,443 |
'train' | 17,688,633 |
'train_t' | 19,566,045 |
- 例( tfds.as_dataframe ):
web_graph/de-dense
構成の説明: WebGraph-de-dense には、約 0.82B のエッジと約 5.7M のノードが含まれています。
データセットサイズ:
5.90 GiB
スプリット:
スプリット | 例 |
---|---|
'test' | 553,270 |
'train' | 5,118,902 |
'train_t' | 5,672,473 |
- 例( tfds.as_dataframe ):
web_graph/in-スパース
構成の説明: WebGraph-de-sparse には、約 0.14B のエッジと約 1.5M のノードが含まれています。
データセットのサイズ:
960.57 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 140,313 |
'train' | 1,309,063 |
'train_t' | 1,445,042 |
- 例( tfds.as_dataframe ):
web_graph/密集
構成の説明: WebGraph-de-dense には、約 0.12B のエッジと約 0.5M のノードが含まれています。
データセットサイズ:
711.72 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 47,894 |
'train' | 443,786 |
'train_t' | 491,634 |
- 例( tfds.as_dataframe ):