- 설명 :
이 데이터 세트에는 웹의 작은 하위 집합에 대한 웹 링크 구조를 나타내는 희소 그래프가 포함되어 있습니다.
2021년 CommonCrawl에서 수행한 단일 크롤링의 처리된 버전으로 모든 것을 제거하고 링크->아웃링크 구조만 유지합니다. 최종 데이터 세트는 기본적으로 int -> List[int] 형식이며 각 정수 ID는 URL을 나타냅니다.
또한 이 리소스의 가치를 높이기 위해 희소성 패턴과 로케일이 각각 다른 6가지 버전의 WebGraph를 만들었습니다. 다음 처리 단계를 순서대로 수행했습니다.
- 2021년 6월 크롤링부터 WAT 파일로 시작했습니다.
- HTTP-Response-Metadata의 아웃링크는 상대 경로로 저장되기 때문에 각 링크를 검증한 후 urllib를 사용하여 절대 경로로 변환합니다.
- 로케일별 그래프를 연구하기 위해 2개의 최상위 도메인인 'de' 및 'in'을 기반으로 추가 필터링하며 각각은 노드 수가 훨씬 적은 그래프를 생성합니다.
- 이러한 그래프에는 여전히 임의의 희소성 패턴과 매달린 링크가 있을 수 있습니다. 따라서 우리는 최소 K ∈ [10, 50] 인링크 및 아웃링크를 갖도록 각 그래프의 노드를 추가로 필터링합니다. 우리는 이 처리를 한 번만 수행하므로 이것은 여전히 근사치입니다. 즉, 결과 그래프에는 K개 미만의 링크가 있는 노드가 있을 수 있습니다.
- 로케일 및 카운트 필터를 모두 사용하여 다음 표에 요약된 WebGraph 데이터 세트의 6개 버전을 마무리합니다.
버전 | 최상위 도메인 | 최소 수 | 노드 수 | 가장자리 수 |
---|---|---|---|---|
부족한 | 10 | 365.4M | 30비 | |
밀집한 | 50 | 136.5M | 22비 | |
드문드문 | 드 | 10 | 1970만 | 1.19B |
밀도가 낮은 | 드 | 50 | 570만 | 0.82B |
희소하지 않은 | 안에 | 10 | 1.5M | 0.14B |
조밀한 | 안에 | 50 | 0.5M | 0.12B |
데이터 세트의 모든 버전에는 다음과 같은 기능이 있습니다.
- "row_tag": 행의 고유 식별자(소스 링크).
- "col_tag": 0이 아닌 열의 고유 식별자 목록(대상 아웃링크).
"gt_tag": ground truth(dest outlinks)로 사용되는 0이 아닌 열의 고유 식별자 목록, train/train_t 분할을 위해 비어 있습니다.
버전 :
-
1.0.0
(기본값): 최초 릴리스.
-
다운로드 크기 :
Unknown size
자동 캐시 ( 문서 ): 아니요
기능 구조 :
FeaturesDict({
'col_tag': Sequence(int64),
'gt_tag': Sequence(int64),
'row_tag': int64,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
col_tag | 시퀀스(텐서) | (없음,) | int64 | |
gt_태그 | 시퀀스(텐서) | (없음,) | int64 | |
행_태그 | 텐서 | int64 |
감독된 키 (
as_supervised
문서 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :
@article{mehta2021alx,
title={ALX: Large Scale Matrix Factorization on TPUs},
author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
year={2021},
eprint={2112.02194},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
web_graph/sparse(기본 구성)
구성 설명 : WebGraph-sparse는 약 30B 에지와 약 365M 노드를 포함합니다.
데이터세트 크기 :
273.38 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 39,871,321 |
'train' | 372,049,054 |
'train_t' | 410,867,007 |
- 예 ( tfds.as_dataframe ):
web_graph/dense
구성 설명 : WebGraph-dense에는 약 22B 에지와 약 136.5M 노드가 포함됩니다.
데이터세트 크기 :
170.87 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 13,256,496 |
'train' | 122,815,749 |
'train_t' | 136,019,364 |
- 예 ( tfds.as_dataframe ):
web_graph/de-sparse
구성 설명 : WebGraph-de-sparse는 약 1.19B 에지와 약 19.7M 노드를 포함합니다.
데이터세트 크기 :
10.25 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 1,903,443 |
'train' | 17,688,633 |
'train_t' | 19,566,045 |
- 예 ( tfds.as_dataframe ):
web_graph/de-dense
구성 설명 : WebGraph-de-dense에는 약 0.82B 에지와 약 5.7M 노드가 포함되어 있습니다.
데이터세트 크기 :
5.90 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 553,270 |
'train' | 5,118,902 |
'train_t' | 5,672,473 |
- 예 ( tfds.as_dataframe ):
web_graph/in-sparse
구성 설명 : WebGraph-de-sparse는 약 0.14B 에지와 약 1.5M 노드를 포함합니다.
데이터 세트 크기 :
960.57 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 140,313 |
'train' | 1,309,063 |
'train_t' | 1,445,042 |
- 예 ( tfds.as_dataframe ):
web_graph/in-dense
구성 설명 : WebGraph-de-dense에는 약 0.12B 에지와 약 0.5M 노드가 포함됩니다.
데이터 세트 크기 :
711.72 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 47,894 |
'train' | 443,786 |
'train_t' | 491,634 |
- 예 ( tfds.as_dataframe ):