web_graph

  • Mô tả :

Tập dữ liệu này chứa một biểu đồ thưa thớt đại diện cho cấu trúc liên kết web cho một tập con nhỏ của Web.

Đây là phiên bản được xử lý của một lần thu thập thông tin duy nhất do CommonCrawl thực hiện vào năm 2021, nơi chúng tôi loại bỏ mọi thứ và chỉ giữ lại cấu trúc liên kết-> liên kết ngoài. Tập dữ liệu cuối cùng về cơ bản là định dạng int -> List [int] với mỗi id số nguyên đại diện cho một url.

Ngoài ra, để tăng giá trị của tài nguyên này, chúng tôi đã tạo 6 phiên bản WebGraph khác nhau, mỗi phiên bản khác nhau về kiểu thưa thớt và ngôn ngữ. Chúng tôi đã thực hiện các bước xử lý sau, theo thứ tự:

  • Chúng tôi bắt đầu với các tệp WAT từ thu thập thông tin tháng 6 năm 2021.
  • Vì các liên kết ngoài trong HTTP-Response-Metadata được lưu trữ dưới dạng các đường dẫn tương đối, chúng tôi chuyển đổi chúng thành các đường dẫn tuyệt đối bằng urllib sau khi xác thực từng liên kết.
  • Để nghiên cứu biểu đồ theo ngôn ngữ cụ thể, chúng tôi lọc thêm dựa trên 2 miền cấp cao nhất: 'de' và 'in', mỗi miền tạo ra một biểu đồ có thứ tự độ lớn ít hơn số nút.
  • Các biểu đồ này vẫn có thể có các mẫu thưa thớt tùy ý và các liên kết lủng lẳng. Do đó, chúng tôi lọc thêm các nút trong mỗi đồ thị để có tối thiểu K ∈ [10, 50] liên kết trong và liên kết ngoài. Lưu ý rằng chúng tôi chỉ thực hiện xử lý này một lần, do đó đây vẫn là một sự gần đúng, tức là biểu đồ kết quả có thể có các nút với ít hơn K liên kết.
  • Sử dụng cả bộ lọc ngôn ngữ và bộ lọc đếm, chúng tôi hoàn thiện 6 phiên bản của tập dữ liệu WebGraph, được tóm tắt trong bảng folling.
Phiên bản Tên miền cấp cao Số lượng tối thiểu Số nút Num cạnh
thưa thớt 10 365.4 triệu 30B
ngu độn 50 136,5 triệu 22B
bớt thưa thớt de 10 19,7 triệu 1,19B
khử đặc de 50 5,7 triệu 0,82B
thưa thớt Trong 10 1,5 triệu 0,14B
trong dày đặc Trong 50 0,5 triệu 0,12B

Tất cả các phiên bản của tập dữ liệu có các tính năng sau:

  • "row_tag": mã định danh duy nhất của hàng (liên kết nguồn).
  • "col_tag": danh sách các số nhận dạng duy nhất của các cột khác 0 (liên kết ngoài cuối cùng).
  • "gt_tag": danh sách các số nhận dạng duy nhất của các cột khác 0 được sử dụng làm chân trị cơ bản (liên kết ngoài cuối cùng), trống cho các phần tách train / train_t.

  • Trang chủ : https://arxiv.org/abs/2112.02194

  • Mã nguồn : tfds.structured.web_graph.WebGraph

  • Các phiên bản :

    • 1.0.0 (mặc định): Bản phát hành ban đầu.
  • Kích thước tải xuống : Unknown size

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Cấu trúc tính năng :

FeaturesDict({
    'col_tag': Sequence(tf.int64),
    'gt_tag': Sequence(tf.int64),
    'row_tag': tf.int64,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
col_tag Trình tự (Tensor) (Không có,) tf.int64
gt_tag Trình tự (Tensor) (Không có,) tf.int64
row_tag Tensor tf.int64
@article{mehta2021alx,
    title={ALX: Large Scale Matrix Factorization on TPUs},
    author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
    year={2021},
    eprint={2112.02194},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

web_graph / Slice (cấu hình mặc định)

  • Mô tả cấu hình : WebGraph-thưa thớt chứa khoảng 30B cạnh và khoảng 365 triệu nút.

  • Kích thước tập dữ liệu: 273.38 GiB

  • Tách :

Tách ra Các ví dụ
'test' 39.871.321
'train' 372.049.054
'train_t' 410.867.007

web_graph / dày đặc

  • Mô tả cấu hình : WebGraph dày đặc chứa khoảng 22B cạnh và khoảng 136,5 triệu nút.

  • Kích thước tập dữ liệu: 170.87 GiB

  • Tách :

Tách ra Các ví dụ
'test' 13,256,496
'train' 122.815.749
'train_t' 136.019.364

web_graph / de-thưa

  • Mô tả cấu hình : WebGraph-de-thưa thớt chứa khoảng 1,19B cạnh và khoảng 19,7M nút.

  • Kích thước tập dữ liệu : 10.25 GiB

  • Tách :

Tách ra Các ví dụ
'test' 1.903.443
'train' 17.688.633
'train_t' 19.566.045

web_graph / de-rậm rạp

  • Mô tả cấu hình : WebGraph-de-rậm rạp chứa khoảng 0,82B cạnh và khoảng 5,7 triệu nút.

  • Kích thước tập dữ liệu : 5.90 GiB

  • Tách :

Tách ra Các ví dụ
'test' 553.270
'train' 5.118.902
'train_t' 5.672.473

web_graph / trong-thưa

  • Mô tả cấu hình : WebGraph-de-thưa thớt chứa khoảng 0,14B cạnh và khoảng 1,5 triệu nút.

  • Kích thước tập dữ liệu: 960.57 MiB

  • Tách :

Tách ra Các ví dụ
'test' 140.313
'train' 1.309.063
'train_t' 1.445.042

web_graph / trong dày đặc

  • Mô tả cấu hình : WebGraph-de-rậm rạp chứa khoảng 0,12B cạnh và khoảng 0,5M nút.

  • Kích thước tập dữ liệu: 711.72 MiB

  • Tách :

Tách ra Các ví dụ
'test' 47.894
'train' 443.786
'train_t' 491.634