- Mô tả :
Tập dữ liệu này chứa một biểu đồ thưa thớt đại diện cho cấu trúc liên kết web cho một tập con nhỏ của Web.
Đây là phiên bản được xử lý của một lần thu thập thông tin duy nhất do CommonCrawl thực hiện vào năm 2021, nơi chúng tôi loại bỏ mọi thứ và chỉ giữ lại cấu trúc liên kết-> liên kết ngoài. Tập dữ liệu cuối cùng về cơ bản là định dạng int -> List [int] với mỗi id số nguyên đại diện cho một url.
Ngoài ra, để tăng giá trị của tài nguyên này, chúng tôi đã tạo 6 phiên bản WebGraph khác nhau, mỗi phiên bản khác nhau về kiểu thưa thớt và ngôn ngữ. Chúng tôi đã thực hiện các bước xử lý sau, theo thứ tự:
- Chúng tôi bắt đầu với các tệp WAT từ thu thập thông tin tháng 6 năm 2021.
- Vì các liên kết ngoài trong HTTP-Response-Metadata được lưu trữ dưới dạng các đường dẫn tương đối, chúng tôi chuyển đổi chúng thành các đường dẫn tuyệt đối bằng urllib sau khi xác thực từng liên kết.
- Để nghiên cứu biểu đồ theo ngôn ngữ cụ thể, chúng tôi lọc thêm dựa trên 2 miền cấp cao nhất: 'de' và 'in', mỗi miền tạo ra một biểu đồ có thứ tự độ lớn ít hơn số nút.
- Các biểu đồ này vẫn có thể có các mẫu thưa thớt tùy ý và các liên kết lủng lẳng. Do đó, chúng tôi lọc thêm các nút trong mỗi đồ thị để có tối thiểu K ∈ [10, 50] liên kết trong và liên kết ngoài. Lưu ý rằng chúng tôi chỉ thực hiện xử lý này một lần, do đó đây vẫn là một sự gần đúng, tức là biểu đồ kết quả có thể có các nút với ít hơn K liên kết.
- Sử dụng cả bộ lọc ngôn ngữ và bộ lọc đếm, chúng tôi hoàn thiện 6 phiên bản của tập dữ liệu WebGraph, được tóm tắt trong bảng folling.
Phiên bản | Tên miền cấp cao | Số lượng tối thiểu | Số nút | Num cạnh |
---|---|---|---|---|
thưa thớt | 10 | 365.4 triệu | 30B | |
ngu độn | 50 | 136,5 triệu | 22B | |
bớt thưa thớt | de | 10 | 19,7 triệu | 1,19B |
khử đặc | de | 50 | 5,7 triệu | 0,82B |
thưa thớt | Trong | 10 | 1,5 triệu | 0,14B |
trong dày đặc | Trong | 50 | 0,5 triệu | 0,12B |
Tất cả các phiên bản của tập dữ liệu có các tính năng sau:
- "row_tag": mã định danh duy nhất của hàng (liên kết nguồn).
- "col_tag": danh sách các số nhận dạng duy nhất của các cột khác 0 (liên kết ngoài cuối cùng).
"gt_tag": danh sách các số nhận dạng duy nhất của các cột khác 0 được sử dụng làm chân trị cơ bản (liên kết ngoài cuối cùng), trống cho các phần tách train / train_t.
Trang chủ : https://arxiv.org/abs/2112.02194
Mã nguồn :
tfds.structured.web_graph.WebGraph
Các phiên bản :
-
1.0.0
(mặc định): Bản phát hành ban đầu.
-
Kích thước tải xuống :
Unknown size
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Cấu trúc tính năng :
FeaturesDict({
'col_tag': Sequence(tf.int64),
'gt_tag': Sequence(tf.int64),
'row_tag': tf.int64,
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Các tính năng | ||||
col_tag | Trình tự (Tensor) | (Không có,) | tf.int64 | |
gt_tag | Trình tự (Tensor) | (Không có,) | tf.int64 | |
row_tag | Tensor | tf.int64 |
Khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Trích dẫn :
@article{mehta2021alx,
title={ALX: Large Scale Matrix Factorization on TPUs},
author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
year={2021},
eprint={2112.02194},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
web_graph / Slice (cấu hình mặc định)
Mô tả cấu hình : WebGraph-thưa thớt chứa khoảng 30B cạnh và khoảng 365 triệu nút.
Kích thước tập dữ liệu:
273.38 GiB
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 39.871.321 |
'train' | 372.049.054 |
'train_t' | 410.867.007 |
- Ví dụ ( tfds.as_dataframe ):
web_graph / dày đặc
Mô tả cấu hình : WebGraph dày đặc chứa khoảng 22B cạnh và khoảng 136,5 triệu nút.
Kích thước tập dữ liệu:
170.87 GiB
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 13,256,496 |
'train' | 122.815.749 |
'train_t' | 136.019.364 |
- Ví dụ ( tfds.as_dataframe ):
web_graph / de-thưa
Mô tả cấu hình : WebGraph-de-thưa thớt chứa khoảng 1,19B cạnh và khoảng 19,7M nút.
Kích thước tập dữ liệu :
10.25 GiB
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 1.903.443 |
'train' | 17.688.633 |
'train_t' | 19.566.045 |
- Ví dụ ( tfds.as_dataframe ):
web_graph / de-rậm rạp
Mô tả cấu hình : WebGraph-de-rậm rạp chứa khoảng 0,82B cạnh và khoảng 5,7 triệu nút.
Kích thước tập dữ liệu :
5.90 GiB
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 553.270 |
'train' | 5.118.902 |
'train_t' | 5.672.473 |
- Ví dụ ( tfds.as_dataframe ):
web_graph / trong-thưa
Mô tả cấu hình : WebGraph-de-thưa thớt chứa khoảng 0,14B cạnh và khoảng 1,5 triệu nút.
Kích thước tập dữ liệu:
960.57 MiB
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 140.313 |
'train' | 1.309.063 |
'train_t' | 1.445.042 |
- Ví dụ ( tfds.as_dataframe ):
web_graph / trong dày đặc
Mô tả cấu hình : WebGraph-de-rậm rạp chứa khoảng 0,12B cạnh và khoảng 0,5M nút.
Kích thước tập dữ liệu:
711.72 MiB
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 47.894 |
'train' | 443.786 |
'train_t' | 491.634 |
- Ví dụ ( tfds.as_dataframe ):