web_graph

  • คำอธิบาย :

ชุดข้อมูลนี้มีกราฟกระจัดกระจายซึ่งแสดงโครงสร้างลิงก์เว็บสำหรับส่วนย่อยเล็กๆ ของเว็บ

เป็นเวอร์ชันที่ประมวลผลแล้วของการรวบรวมข้อมูลเดี่ยวที่ดำเนินการโดย CommonCrawl ในปี 2021 โดยเราจะตัดทุกอย่างออกและเก็บเฉพาะโครงสร้างลิงก์->เอาท์ลิงก์ ชุดข้อมูลสุดท้ายนั้นเป็นรูปแบบ int -> List[int] โดยแต่ละรหัสจำนวนเต็มจะแทน url

นอกจากนี้ เพื่อเพิ่มมูลค่าของทรัพยากรนี้ เราได้สร้าง WebGraph 6 เวอร์ชันที่แตกต่างกัน โดยแต่ละเวอร์ชันจะแตกต่างกันไปตามรูปแบบและโลแคล เราใช้ขั้นตอนการประมวลผลต่อไปนี้ ตามลำดับ:

  • เราเริ่มต้นด้วยไฟล์ WAT จากการรวบรวมข้อมูลในเดือนมิถุนายน 2021
  • เนื่องจากเอาท์ลิงก์ใน HTTP-Response-Metadata ถูกจัดเก็บเป็นพาธสัมพัทธ์ เราจึงแปลงเป็นพาธสัมบูรณ์โดยใช้ urllib หลังจากตรวจสอบแต่ละลิงก์แล้ว
  • เพื่อศึกษากราฟเฉพาะตำแหน่งที่ตั้ง เรากรองเพิ่มเติมตามโดเมนระดับบนสุด 2 โดเมน: 'de' และ 'in' โดยแต่ละโดเมนจะสร้างกราฟที่มีลำดับความสำคัญน้อยกว่าจำนวนโหนด
  • กราฟเหล่านี้ยังคงมีรูปแบบกระจัดกระจายตามอำเภอใจและลิงก์ห้อย ดังนั้นเราจึงกรองโหนดเพิ่มเติมในแต่ละกราฟเพื่อให้มีลิงก์เข้าและออกขั้นต่ำ K ∈ [10, 50] โปรดทราบว่าเราทำการประมวลผลเพียงครั้งเดียว ดังนั้นนี่จึงยังคงเป็นการประมาณ เช่น กราฟผลลัพธ์อาจมีโหนดที่มีลิงก์น้อยกว่า K
  • การใช้ทั้งตัวกรองตำแหน่งที่ตั้งและจำนวนนับ เราสรุปชุดข้อมูล WebGraph 6 เวอร์ชัน สรุปไว้ในตารางต่อไปนี้
รุ่น โดเมนระดับบนสุด นับขั้นต่ำ จำนวนโหนด ขอบตัวเลข
เบาบาง 10 365.4M 30 บ
หนาแน่น 50 136.5ม 22B
กระจัดกระจาย เดอ 10 19.7M 1.19 บ
ไม่หนาแน่น เดอ 50 5.7M 0.82บ
ในเบาบาง ใน 10 1.5M 0.14บ
ในความหนาแน่น ใน 50 0.5M 0.12บ

ชุดข้อมูลทุกรุ่นมีคุณสมบัติดังต่อไปนี้:

  • "row_tag": ตัวระบุเฉพาะของแถว (ลิงก์แหล่งที่มา)
  • "col_tag": รายการตัวระบุเฉพาะของคอลัมน์ที่ไม่ใช่ศูนย์ (ปลายทาง outlinks)
  • "gt_tag": รายการของตัวระบุเฉพาะของคอลัมน์ที่ไม่ใช่ศูนย์ที่ใช้เป็นค่าความจริงพื้นฐาน (ปลายทางของลิงก์ภายนอก) ว่างเปล่าสำหรับการแยก train/train_t

  • โฮมเพจ : https://arxiv.org/abs/2112.02194

  • รหัสที่มา : tfds.structured.web_graph.WebGraph

  • รุ่น :

    • 1.0.0 (ค่าเริ่มต้น): การเปิดตัวครั้งแรก
  • ขนาดการดาวน์โหลด : Unknown size

  • แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่

  • โครงสร้างคุณลักษณะ :

FeaturesDict({
    'col_tag': Sequence(int64),
    'gt_tag': Sequence(int64),
    'row_tag': int64,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
col_tag ลำดับ (เทนเซอร์) (ไม่มี,) int64
gt_tag ลำดับ (เทนเซอร์) (ไม่มี,) int64
row_tag เทนเซอร์ int64
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): None

  • รูปภาพ ( tfds.show_examples ): ไม่รองรับ

  • การอ้างอิง :

@article{mehta2021alx,
    title={ALX: Large Scale Matrix Factorization on TPUs},
    author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
    year={2021},
    eprint={2112.02194},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

web_graph/sparse (การกำหนดค่าเริ่มต้น)

  • คำอธิบาย การกำหนดค่า: WebGraph-sparse มีขอบประมาณ 30B และโหนดประมาณ 365M

  • ขนาดชุดข้อมูล : 273.38 GiB

  • แยก :

แยก ตัวอย่าง
'test' 39,871,321
'train' 372,049,054
'train_t' 410,867,007

web_graph/หนาแน่น

  • คำอธิบาย การกำหนดค่า: WebGraph-dense มีขอบประมาณ 22B และโหนดประมาณ 136.5M

  • ขนาดชุดข้อมูล : 170.87 GiB

  • แยก :

แยก ตัวอย่าง
'test' 13,256,496
'train' 122,815,749
'train_t' 136,019,364

web_graph/de-sparse

  • คำอธิบาย การกำหนดค่า: WebGraph-de-sparse มีขอบประมาณ 1.19B และโหนดประมาณ 19.7M

  • ขนาดชุดข้อมูล : 10.25 GiB

  • แยก :

แยก ตัวอย่าง
'test' 1,903,443
'train' 17,688,633
'train_t' 19,566,045

web_graph/de-หนาแน่น

  • คำอธิบาย การกำหนดค่า: WebGraph-de-dense มีขอบประมาณ 0.82B และโหนดประมาณ 5.7M

  • ขนาดชุดข้อมูล : 5.90 GiB

  • แยก :

แยก ตัวอย่าง
'test' 553,270
'train' 5,118,902
'train_t' 5,672,473

web_graph/in-sparse

  • คำอธิบาย การกำหนดค่า: WebGraph-de-sparse มีขอบประมาณ 0.14B และโหนดประมาณ 1.5M

  • ขนาดชุดข้อมูล : 960.57 MiB

  • แยก :

แยก ตัวอย่าง
'test' 140,313
'train' 1,309,063
'train_t' 1,445,042

web_graph/หนาแน่น

  • คำอธิบาย การกำหนดค่า: WebGraph-de-dense มีขอบประมาณ 0.12B และโหนดประมาณ 0.5M

  • ขนาดชุดข้อมูล : 711.72 MiB

  • แยก :

แยก ตัวอย่าง
'test' 47,894
'train' 443,786
'train_t' 491,634