gráfico_web

  • Descripción :

Este conjunto de datos contiene un gráfico disperso que representa la estructura de enlaces web para un pequeño subconjunto de la web.

Es una versión procesada de un solo rastreo realizado por CommonCrawl en 2021 donde eliminamos todo y mantenemos solo la estructura de enlace-> enlaces externos. El conjunto de datos final es básicamente el formato int -> List[int] con cada id entero que representa una URL.

Además, para aumentar el valor de este recurso, creamos 6 versiones diferentes de WebGraph, cada una de las cuales varía en el patrón de dispersión y la configuración regional. Tomamos los siguientes pasos de procesamiento, en orden:

  • Comenzamos con los archivos WAT del rastreo de junio de 2021.
  • Dado que los enlaces externos en HTTP-Response-Metadata se almacenan como rutas relativas, los convertimos en rutas absolutas usando urllib después de validar cada enlace.
  • Para estudiar los gráficos específicos de la ubicación, filtramos más en función de 2 dominios de nivel superior: 'de' e 'in', cada uno de los cuales produce un gráfico con un orden de magnitud menos el número de nodos.
  • Estos gráficos aún pueden tener patrones de escasez arbitrarios y enlaces colgantes. Por lo tanto, filtramos aún más los nodos en cada gráfico para tener un mínimo de K ∈ [10, 50] enlaces entrantes y salientes. Tenga en cuenta que solo hacemos este procesamiento una vez, por lo que sigue siendo una aproximación, es decir, el gráfico resultante podría tener nodos con menos de K enlaces.
  • Utilizando filtros de configuración regional y de conteo, finalizamos 6 versiones del conjunto de datos de WebGraph, que se resumen en la siguiente tabla.
Versión Dominio de primer nivel recuento mínimo número de nodos Núm. de aristas
escaso 10 365.4M 30B
denso 50 136,5 millones 22B
desparramar Delaware 10 19,7 millones 1.19B
de-denso Delaware 50 5,7 millones 0.82B
en escaso en 10 1,5 millones 0.14B
en-denso en 50 0.5M 0.12B

Todas las versiones del conjunto de datos tienen las siguientes características:

  • "row_tag": un identificador único de la fila (enlace de origen).
  • "col_tag": una lista de identificadores únicos de columnas distintas de cero (enlaces externos de destino).
  • "gt_tag": una lista de identificadores únicos de columnas distintas de cero que se utilizan como datos reales (enlaces externos de destino), vacíos para divisiones de tren/tren_t.

  • Página de inicio: https://arxiv.org/abs/2112.02194

  • Código fuente : tfds.structured.web_graph.WebGraph

  • Versiones :

    • 1.0.0 (predeterminado): versión inicial.
  • Tamaño de descarga : Unknown size

  • Almacenamiento automático en caché ( documentación ): No

  • Estructura de características :

FeaturesDict({
    'col_tag': Sequence(int64),
    'gt_tag': Sequence(int64),
    'row_tag': int64,
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
col_etiqueta Secuencia (tensor) (Ninguna,) int64
etiqueta_gt Secuencia (tensor) (Ninguna,) int64
fila_etiqueta Tensor int64
@article{mehta2021alx,
    title={ALX: Large Scale Matrix Factorization on TPUs},
    author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
    year={2021},
    eprint={2112.02194},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

web_graph/sparse (configuración predeterminada)

  • Descripción de la configuración : WebGraph-sparse contiene alrededor de 30 B de bordes y alrededor de 365 millones de nodos.

  • Tamaño del conjunto de datos : 273.38 GiB

  • Divisiones :

Separar Ejemplos
'test' 39,871,321
'train' 372.049.054
'train_t' 410,867,007

gráfico_web/denso

  • Descripción de la configuración : WebGraph-dense contiene alrededor de 22 000 millones de bordes y alrededor de 136,5 millones de nodos.

  • Tamaño del conjunto de datos : 170.87 GiB

  • Divisiones :

Separar Ejemplos
'test' 13,256,496
'train' 122.815.749
'train_t' 136,019,364

web_graph/de-disperso

  • Descripción de la configuración : WebGraph-de-sparse contiene alrededor de 1.19B de bordes y alrededor de 19.7M de nodos.

  • Tamaño del conjunto de datos : 10.25 GiB

  • Divisiones :

Separar Ejemplos
'test' 1,903,443
'train' 17,688,633
'train_t' 19,566,045

web_graph/de-dense

  • Descripción de la configuración : WebGraph-de-dense contiene alrededor de 0,82B de bordes y alrededor de 5,7M de nodos.

  • Tamaño del conjunto de datos : 5.90 GiB

  • Divisiones :

Separar Ejemplos
'test' 553,270
'train' 5,118,902
'train_t' 5,672,473

web_graph/en-disperso

  • Descripción de la configuración : WebGraph-de-sparse contiene alrededor de 0.14B de bordes y alrededor de 1.5M de nodos.

  • Tamaño del conjunto de datos : 960.57 MiB

  • Divisiones :

Separar Ejemplos
'test' 140,313
'train' 1,309,063
'train_t' 1,445,042

web_graph/en-denso

  • Descripción de la configuración : WebGraph-de-dense contiene alrededor de 0.12B de bordes y alrededor de 0.5M de nodos.

  • Tamaño del conjunto de datos : 711.72 MiB

  • Divisiones :

Separar Ejemplos
'test' 47,894
'train' 443,786
'train_t' 491,634