웹 그래프

  • 설명 :

이 데이터 세트에는 웹의 작은 하위 집합에 대한 웹 링크 구조를 나타내는 희소 그래프가 포함되어 있습니다.

2021년 CommonCrawl에서 수행한 단일 크롤링의 처리된 버전으로 모든 것을 제거하고 링크->아웃링크 구조만 유지합니다. 최종 데이터 세트는 기본적으로 int -> List[int] 형식이며 각 정수 ID는 URL을 나타냅니다.

또한 이 리소스의 가치를 높이기 위해 희소성 패턴과 로케일이 각각 다른 6가지 버전의 WebGraph를 만들었습니다. 다음 처리 단계를 순서대로 수행했습니다.

  • 2021년 6월 크롤링부터 WAT 파일로 시작했습니다.
  • HTTP-Response-Metadata의 아웃링크는 상대 경로로 저장되기 때문에 각 링크를 검증한 후 urllib를 사용하여 절대 경로로 변환합니다.
  • 로케일별 그래프를 연구하기 위해 2개의 최상위 도메인인 'de' 및 'in'을 기반으로 추가 필터링하며 각각은 노드 수가 훨씬 적은 그래프를 생성합니다.
  • 이러한 그래프에는 여전히 임의의 희소성 패턴과 매달린 링크가 있을 수 있습니다. 따라서 우리는 최소 K ∈ [10, 50] 인링크 및 아웃링크를 갖도록 각 그래프의 노드를 추가로 필터링합니다. 우리는 이 처리를 한 번만 수행하므로 이것은 여전히 ​​근사치입니다. 즉, 결과 그래프에는 K개 미만의 링크가 있는 노드가 있을 수 있습니다.
  • 로케일 및 카운트 필터를 모두 사용하여 다음 표에 요약된 WebGraph 데이터 세트의 6개 버전을 마무리합니다.
버전 최상위 도메인 최소 수 노드 수 가장자리 수
부족한 10 365.4M 30비
밀집한 50 136.5M 22비
드문드문 10 1970만 1.19B
밀도가 낮은 50 570만 0.82B
희소하지 않은 안에 10 1.5M 0.14B
조밀한 안에 50 0.5M 0.12B

데이터 세트의 모든 버전에는 다음과 같은 기능이 있습니다.

  • "row_tag": 행의 고유 식별자(소스 링크).
  • "col_tag": 0이 아닌 열의 고유 식별자 목록(대상 아웃링크).
  • "gt_tag": ground truth(dest outlinks)로 사용되는 0이 아닌 열의 고유 식별자 목록, train/train_t 분할을 위해 비어 있습니다.

  • 홈페이지 : https://arxiv.org/abs/2112.02194

  • 소스 코드 : tfds.structured.web_graph.WebGraph

  • 버전 :

    • 1.0.0 (기본값): 최초 릴리스.
  • 다운로드 크기 : Unknown size

  • 자동 캐시 ( 문서 ): 아니요

  • 기능 구조 :

FeaturesDict({
    'col_tag': Sequence(int64),
    'gt_tag': Sequence(int64),
    'row_tag': int64,
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
col_tag 시퀀스(텐서) (없음,) int64
gt_태그 시퀀스(텐서) (없음,) int64
행_태그 텐서 int64
@article{mehta2021alx,
    title={ALX: Large Scale Matrix Factorization on TPUs},
    author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
    year={2021},
    eprint={2112.02194},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

web_graph/sparse(기본 구성)

  • 구성 설명 : WebGraph-sparse는 약 30B 에지와 약 365M 노드를 포함합니다.

  • 데이터세트 크기 : 273.38 GiB

  • 분할 :

나뉘다
'test' 39,871,321
'train' 372,049,054
'train_t' 410,867,007

web_graph/dense

  • 구성 설명 : WebGraph-dense에는 약 22B 에지와 약 136.5M 노드가 포함됩니다.

  • 데이터세트 크기 : 170.87 GiB

  • 분할 :

나뉘다
'test' 13,256,496
'train' 122,815,749
'train_t' 136,019,364

web_graph/de-sparse

  • 구성 설명 : WebGraph-de-sparse는 약 1.19B 에지와 약 19.7M 노드를 포함합니다.

  • 데이터세트 크기 : 10.25 GiB

  • 분할 :

나뉘다
'test' 1,903,443
'train' 17,688,633
'train_t' 19,566,045

web_graph/de-dense

  • 구성 설명 : WebGraph-de-dense에는 약 0.82B 에지와 약 5.7M 노드가 포함되어 있습니다.

  • 데이터세트 크기 : 5.90 GiB

  • 분할 :

나뉘다
'test' 553,270
'train' 5,118,902
'train_t' 5,672,473

web_graph/in-sparse

  • 구성 설명 : WebGraph-de-sparse는 약 0.14B 에지와 약 1.5M 노드를 포함합니다.

  • 데이터 세트 크기 : 960.57 MiB

  • 분할 :

나뉘다
'test' 140,313
'train' 1,309,063
'train_t' 1,445,042

web_graph/in-dense

  • 구성 설명 : WebGraph-de-dense에는 약 0.12B 에지와 약 0.5M 노드가 포함됩니다.

  • 데이터 세트 크기 : 711.72 MiB

  • 분할 :

나뉘다
'test' 47,894
'train' 443,786
'train_t' 491,634