web_graph

  • Mô tả :

Bộ dữ liệu này chứa một biểu đồ thưa biểu thị cấu trúc liên kết web cho một tập hợp con nhỏ của Web.

Đây là phiên bản đã xử lý của một lần thu thập dữ liệu do CommonCrawl thực hiện vào năm 2021, trong đó chúng tôi loại bỏ mọi thứ và chỉ giữ lại cấu trúc liên kết->liên kết ngoài. Tập dữ liệu cuối cùng về cơ bản là định dạng int -> List[int] với mỗi id số nguyên đại diện cho một url.

Ngoài ra, để tăng giá trị của tài nguyên này, chúng tôi đã tạo 6 phiên bản WebGraph khác nhau, mỗi phiên bản khác nhau về kiểu mẫu và ngôn ngữ thưa thớt. Chúng tôi đã thực hiện các bước xử lý sau, theo thứ tự:

  • Chúng tôi đã bắt đầu thu thập thông tin với các tệp WAT từ tháng 6 năm 2021.
  • Vì các liên kết ngoài trong Siêu dữ liệu phản hồi HTTP được lưu trữ dưới dạng đường dẫn tương đối nên chúng tôi chuyển đổi chúng thành đường dẫn tuyệt đối bằng cách sử dụng urllib sau khi xác thực từng liên kết.
  • Để nghiên cứu các biểu đồ dành riêng cho ngôn ngữ, chúng tôi lọc thêm dựa trên 2 miền cấp cao nhất: 'de' và 'in', mỗi miền tạo ra một biểu đồ có thứ tự cường độ ít hơn số lượng nút.
  • Các biểu đồ này vẫn có thể có các mẫu thưa thớt tùy ý và các liên kết lơ lửng. Do đó, chúng tôi tiếp tục lọc các nút trong mỗi biểu đồ để có tối thiểu K ∈ [10, 50] liên kết trong và ngoài. Lưu ý rằng chúng tôi chỉ thực hiện quá trình này một lần, do đó, đây vẫn là một phép tính gần đúng, tức là biểu đồ kết quả có thể có các nút có ít hơn K liên kết.
  • Sử dụng cả bộ lọc ngôn ngữ và số lượng, chúng tôi hoàn thiện 6 phiên bản của tập dữ liệu WebGraph, được tóm tắt trong bảng theo dõi.
Phiên bản Tên miền cấp cao số lượng tối thiểu Số nút Số cạnh
thưa thớt 10 365.4M 30B
ngu độn 50 136,5M 22B
bớt thưa thớt de 10 19,7M 1.19B
giảm mật độ de 50 5,7M 0,82B
thưa thớt Trong 10 1,5 triệu 0,14B
dày đặc Trong 50 0,5M 0,12B

Tất cả các phiên bản của tập dữ liệu đều có các tính năng sau:

  • "row_tag": mã định danh duy nhất của hàng (liên kết nguồn).
  • "col_tag": danh sách các mã định danh duy nhất của các cột khác 0 (liên kết ngoài đích).
  • "gt_tag": danh sách các giá trị nhận dạng duy nhất của các cột khác 0 được sử dụng làm giá trị thực cơ bản (liên kết ngoài đích), trống đối với phân tách train/train_t.

  • Trang chủ : https://arxiv.org/abs/2112.02194

  • Mã nguồn : tfds.structured.web_graph.WebGraph

  • Phiên bản :

    • 1.0.0 (mặc định): Bản phát hành đầu tiên.
  • Kích thước tải xuống : Unknown size

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Cấu trúc tính năng :

FeaturesDict({
    'col_tag': Sequence(int64),
    'gt_tag': Sequence(int64),
    'row_tag': int64,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
col_tag Trình tự (Tensor) (Không có,) int64
gt_tag Trình tự (Tensor) (Không có,) int64
row_tag tenxơ int64
@article{mehta2021alx,
    title={ALX: Large Scale Matrix Factorization on TPUs},
    author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
    year={2021},
    eprint={2112.02194},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

web_graph/sparse (cấu hình mặc định)

  • Mô tả cấu hình : WebGraph-sparse chứa khoảng 30 tỷ cạnh và khoảng 365 triệu nút.

  • Kích thước tập dữ liệu : 273.38 GiB

  • Chia tách :

Tách ra ví dụ
'test' 39.871.321
'train' 372.049.054
'train_t' 410.867.007

web_graph/dày đặc

  • Mô tả cấu hình : WebGraph-dense chứa khoảng 22 tỷ cạnh và khoảng 136,5 triệu nút.

  • Kích thước tập dữ liệu : 170.87 GiB

  • Chia tách :

Tách ra ví dụ
'test' 13.256.496
'train' 122.815.749
'train_t' 136.019.364

web_graph/khử thưa thớt

  • Mô tả cấu hình : WebGraph-de-sparse chứa khoảng 1,19 tỷ cạnh và khoảng 19,7 triệu nút.

  • Kích thước tập dữ liệu : 10.25 GiB

  • Chia tách :

Tách ra ví dụ
'test' 1.903.443
'train' 17.688.633
'train_t' 19.566.045

web_graph/de-dense

  • Mô tả cấu hình : WebGraph-de-dense chứa khoảng 0,82 tỷ cạnh và khoảng 5,7 triệu nút.

  • Kích thước tập dữ liệu : 5.90 GiB

  • Chia tách :

Tách ra ví dụ
'test' 553,270
'train' 5.118.902
'train_t' 5.672.473

web_graph/trong thưa thớt

  • Mô tả cấu hình : WebGraph-de-sparse chứa khoảng 0,14 tỷ cạnh và khoảng 1,5 triệu nút.

  • Kích thước tập dữ liệu : 960.57 MiB

  • Chia tách :

Tách ra ví dụ
'test' 140,313
'train' 1.309.063
'train_t' 1.445.042

web_graph/dày đặc

  • Mô tả cấu hình : WebGraph-de-dense chứa khoảng 0,12 tỷ cạnh và khoảng 0,5 triệu nút.

  • Kích thước tập dữ liệu : 711.72 MiB

  • Chia tách :

Tách ra ví dụ
'test' 47,894
'train' 443,786
'train_t' 491,634