web_graph

  • Descrizione :

Questo set di dati contiene un grafico sparso che rappresenta la struttura dei collegamenti Web per un piccolo sottoinsieme del Web.

È una versione elaborata di una singola scansione eseguita da CommonCrawl nel 2021 in cui rimuoviamo tutto e manteniamo solo la struttura link->outlink. Il set di dati finale è fondamentalmente int -> formato List[int] con ogni ID intero che rappresenta un URL.

Inoltre, al fine di aumentare il valore di questa risorsa, abbiamo creato 6 diverse versioni di WebGraph, ognuna delle quali varia nel modello di scarsità e nelle impostazioni locali. Abbiamo eseguito le seguenti fasi di lavorazione, nell'ordine:

  • Abbiamo iniziato con i file WAT della scansione di giugno 2021.
  • Poiché i collegamenti in uscita nei metadati di risposta HTTP sono archiviati come percorsi relativi, li convertiamo in percorsi assoluti utilizzando urllib dopo aver convalidato ciascun collegamento.
  • Per studiare i grafici specifici delle impostazioni locali, filtriamo ulteriormente in base a 2 domini di primo livello: "de" e "in", ognuno dei quali produce un grafico con un numero di nodi inferiore di un ordine di grandezza.
  • Questi grafici possono ancora avere schemi di sparsità arbitrari e collegamenti penzolanti. Quindi filtriamo ulteriormente i nodi in ogni grafo per avere un minimo di K ∈ [10, 50] collegamenti in entrata e in uscita. Si noti che eseguiamo questa elaborazione solo una volta, quindi questa è ancora un'approssimazione, ovvero il grafico risultante potrebbe avere nodi con meno di K collegamenti.
  • Utilizzando sia i filtri locali che quelli di conteggio, finalizziamo 6 versioni del set di dati WebGraph, riassunte nella seguente tabella.
Versione Dominio di primo livello Conteggio minimo Num nodi Num bordi
scarso 10 365,4 milioni 30b
denso 50 136,5M 22b
de-sparse de 10 19,7 M 1.19 B
denso de 50 5,7 milioni 0,82 miliardi
in-sparso in 10 1,5 M 0,14 miliardi
denso in 50 0,5 M 0,12 miliardi

Tutte le versioni del set di dati hanno le seguenti caratteristiche:

  • "row_tag": un identificatore univoco della riga (link alla fonte).
  • "col_tag": un elenco di identificatori univoci di colonne diverse da zero (dest outlink).
  • "gt_tag": un elenco di identificatori univoci di colonne diverse da zero utilizzate come verità fondamentale (dest outlink), vuoto per le divisioni train/train_t.

  • Pagina iniziale : https://arxiv.org/abs/2112.02194

  • Codice sorgente : tfds.structured.web_graph.WebGraph

  • Versioni :

    • 1.0.0 (impostazione predefinita): versione iniziale.
  • Dimensioni del download : Unknown size

  • Cache automatica ( documentazione ): No

  • Struttura delle caratteristiche :

FeaturesDict({
    'col_tag': Sequence(int64),
    'gt_tag': Sequence(int64),
    'row_tag': int64,
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
col_tag Sequenza (tensore) (Nessuno,) int64
gt_tag Sequenza (tensore) (Nessuno,) int64
tag_riga Tensore int64
@article{mehta2021alx,
    title={ALX: Large Scale Matrix Factorization on TPUs},
    author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
    year={2021},
    eprint={2112.02194},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

web_graph/sparse (configurazione predefinita)

  • Descrizione della configurazione : WebGraph-sparse contiene circa 30 miliardi di bordi e circa 365 milioni di nodi.

  • Dimensione del set di dati: 273.38 GiB

  • Divisioni :

Diviso Esempi
'test' 39.871.321
'train' 372.049.054
'train_t' 410.867.007

web_graph/denso

  • Descrizione della configurazione : WebGraph-dense contiene circa 22 miliardi di bordi e circa 136,5 milioni di nodi.

  • Dimensione del set di dati: 170.87 GiB

  • Divisioni :

Diviso Esempi
'test' 13.256.496
'train' 122.815.749
'train_t' 136.019.364

web_graph/de-sparse

  • Descrizione della configurazione : WebGraph-de-sparse contiene circa 1,19 miliardi di bordi e circa 19,7 milioni di nodi.

  • Dimensione del set di dati: 10.25 GiB

  • Divisioni :

Diviso Esempi
'test' 1.903.443
'train' 17.688.633
'train_t' 19.566.045

web_graph/dedenso

  • Descrizione della configurazione : WebGraph-de-dense contiene circa 0,82 miliardi di spigoli e circa 5,7 milioni di nodi.

  • Dimensione del set di dati : 5.90 GiB

  • Divisioni :

Diviso Esempi
'test' 553.270
'train' 5.118.902
'train_t' 5.672.473

web_graph/in-sparso

  • Descrizione della configurazione : WebGraph-de-sparse contiene circa 0,14 miliardi di bordi e circa 1,5 milioni di nodi.

  • Dimensione del set di dati: 960.57 MiB

  • Divisioni :

Diviso Esempi
'test' 140.313
'train' 1.309.063
'train_t' 1.445.042

web_graph/in-denso

  • Descrizione della configurazione : WebGraph-de-dense contiene circa 0,12 miliardi di spigoli e circa 0,5 milioni di nodi.

  • Dimensione del set di dati: 711.72 MiB

  • Divisioni :

Diviso Esempi
'test' 47.894
'train' 443.786
'train_t' 491.634