- คำอธิบาย :
ชุดข้อมูลนี้มีกราฟกระจัดกระจายซึ่งแสดงโครงสร้างลิงก์เว็บสำหรับส่วนย่อยเล็กๆ ของเว็บ
เป็นเวอร์ชันที่ประมวลผลแล้วของการรวบรวมข้อมูลเดี่ยวที่ดำเนินการโดย CommonCrawl ในปี 2021 โดยเราจะตัดทุกอย่างออกและเก็บเฉพาะโครงสร้างลิงก์->เอาท์ลิงก์ ชุดข้อมูลสุดท้ายนั้นเป็นรูปแบบ int -> List[int] โดยแต่ละรหัสจำนวนเต็มจะแทน url
นอกจากนี้ เพื่อเพิ่มมูลค่าของทรัพยากรนี้ เราได้สร้าง WebGraph 6 เวอร์ชันที่แตกต่างกัน โดยแต่ละเวอร์ชันจะแตกต่างกันไปตามรูปแบบและโลแคล เราใช้ขั้นตอนการประมวลผลต่อไปนี้ ตามลำดับ:
- เราเริ่มต้นด้วยไฟล์ WAT จากการรวบรวมข้อมูลในเดือนมิถุนายน 2021
- เนื่องจากเอาท์ลิงก์ใน HTTP-Response-Metadata ถูกจัดเก็บเป็นพาธสัมพัทธ์ เราจึงแปลงเป็นพาธสัมบูรณ์โดยใช้ urllib หลังจากตรวจสอบแต่ละลิงก์แล้ว
- เพื่อศึกษากราฟเฉพาะตำแหน่งที่ตั้ง เรากรองเพิ่มเติมตามโดเมนระดับบนสุด 2 โดเมน: 'de' และ 'in' โดยแต่ละโดเมนจะสร้างกราฟที่มีลำดับความสำคัญน้อยกว่าจำนวนโหนด
- กราฟเหล่านี้ยังคงมีรูปแบบกระจัดกระจายตามอำเภอใจและลิงก์ห้อย ดังนั้นเราจึงกรองโหนดเพิ่มเติมในแต่ละกราฟเพื่อให้มีลิงก์เข้าและออกขั้นต่ำ K ∈ [10, 50] โปรดทราบว่าเราทำการประมวลผลเพียงครั้งเดียว ดังนั้นนี่จึงยังคงเป็นการประมาณ เช่น กราฟผลลัพธ์อาจมีโหนดที่มีลิงก์น้อยกว่า K
- การใช้ทั้งตัวกรองตำแหน่งที่ตั้งและจำนวนนับ เราสรุปชุดข้อมูล WebGraph 6 เวอร์ชัน สรุปไว้ในตารางต่อไปนี้
รุ่น | โดเมนระดับบนสุด | นับขั้นต่ำ | จำนวนโหนด | ขอบตัวเลข |
---|---|---|---|---|
เบาบาง | 10 | 365.4M | 30 บ | |
หนาแน่น | 50 | 136.5ม | 22B | |
กระจัดกระจาย | เดอ | 10 | 19.7M | 1.19 บ |
ไม่หนาแน่น | เดอ | 50 | 5.7M | 0.82บ |
ในเบาบาง | ใน | 10 | 1.5M | 0.14บ |
ในความหนาแน่น | ใน | 50 | 0.5M | 0.12บ |
ชุดข้อมูลทุกรุ่นมีคุณสมบัติดังต่อไปนี้:
- "row_tag": ตัวระบุเฉพาะของแถว (ลิงก์แหล่งที่มา)
- "col_tag": รายการตัวระบุเฉพาะของคอลัมน์ที่ไม่ใช่ศูนย์ (ปลายทาง outlinks)
"gt_tag": รายการของตัวระบุเฉพาะของคอลัมน์ที่ไม่ใช่ศูนย์ที่ใช้เป็นค่าความจริงพื้นฐาน (ปลายทางของลิงก์ภายนอก) ว่างเปล่าสำหรับการแยก train/train_t
โฮมเพจ : https://arxiv.org/abs/2112.02194
รหัสที่มา :
tfds.structured.web_graph.WebGraph
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): การเปิดตัวครั้งแรก
-
ขนาดการดาวน์โหลด :
Unknown size
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
โครงสร้างคุณลักษณะ :
FeaturesDict({
'col_tag': Sequence(int64),
'gt_tag': Sequence(int64),
'row_tag': int64,
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
col_tag | ลำดับ (เทนเซอร์) | (ไม่มี,) | int64 | |
gt_tag | ลำดับ (เทนเซอร์) | (ไม่มี,) | int64 | |
row_tag | เทนเซอร์ | int64 |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :
@article{mehta2021alx,
title={ALX: Large Scale Matrix Factorization on TPUs},
author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
year={2021},
eprint={2112.02194},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
web_graph/sparse (การกำหนดค่าเริ่มต้น)
คำอธิบาย การกำหนดค่า: WebGraph-sparse มีขอบประมาณ 30B และโหนดประมาณ 365M
ขนาดชุดข้อมูล :
273.38 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 39,871,321 |
'train' | 372,049,054 |
'train_t' | 410,867,007 |
- ตัวอย่าง ( tfds.as_dataframe ):
web_graph/หนาแน่น
คำอธิบาย การกำหนดค่า: WebGraph-dense มีขอบประมาณ 22B และโหนดประมาณ 136.5M
ขนาดชุดข้อมูล :
170.87 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 13,256,496 |
'train' | 122,815,749 |
'train_t' | 136,019,364 |
- ตัวอย่าง ( tfds.as_dataframe ):
web_graph/de-sparse
คำอธิบาย การกำหนดค่า: WebGraph-de-sparse มีขอบประมาณ 1.19B และโหนดประมาณ 19.7M
ขนาดชุดข้อมูล :
10.25 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 1,903,443 |
'train' | 17,688,633 |
'train_t' | 19,566,045 |
- ตัวอย่าง ( tfds.as_dataframe ):
web_graph/de-หนาแน่น
คำอธิบาย การกำหนดค่า: WebGraph-de-dense มีขอบประมาณ 0.82B และโหนดประมาณ 5.7M
ขนาดชุดข้อมูล :
5.90 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 553,270 |
'train' | 5,118,902 |
'train_t' | 5,672,473 |
- ตัวอย่าง ( tfds.as_dataframe ):
web_graph/in-sparse
คำอธิบาย การกำหนดค่า: WebGraph-de-sparse มีขอบประมาณ 0.14B และโหนดประมาณ 1.5M
ขนาดชุดข้อมูล :
960.57 MiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 140,313 |
'train' | 1,309,063 |
'train_t' | 1,445,042 |
- ตัวอย่าง ( tfds.as_dataframe ):
web_graph/หนาแน่น
คำอธิบาย การกำหนดค่า: WebGraph-de-dense มีขอบประมาณ 0.12B และโหนดประมาณ 0.5M
ขนาดชุดข้อมูล :
711.72 MiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 47,894 |
'train' | 443,786 |
'train_t' | 491,634 |
- ตัวอย่าง ( tfds.as_dataframe ):