web_graph

  • Descrição :

Este conjunto de dados contém um gráfico esparso que representa a estrutura de links da Web para um pequeno subconjunto da Web.

É uma versão processada de um único rastreamento realizado pelo CommonCrawl em 2021, onde removemos tudo e mantemos apenas a estrutura link->outlinks. O conjunto de dados final é basicamente o formato int -> List[int] com cada ID inteiro representando uma url.

Além disso, para aumentar o valor desse recurso, criamos 6 versões diferentes do WebGraph, cada uma variando no padrão de esparsidade e localidade. Tomamos as seguintes etapas de processamento, em ordem:

  • Começamos com arquivos WAT do rastreamento de junho de 2021.
  • Como os outlinks em HTTP-Response-Metadata são armazenados como caminhos relativos, nós os convertemos em caminhos absolutos usando urllib após validar cada link.
  • Para estudar gráficos específicos de localidade, filtramos ainda mais com base em 2 domínios de nível superior: 'de' e 'in', cada um produzindo um gráfico com uma ordem de magnitude menor do número de nós.
  • Esses gráficos ainda podem ter padrões arbitrários de dispersão e links pendentes. Assim, filtramos ainda mais os nós em cada grafo para ter um mínimo de K ∈ [10, 50] inlinks e outlinks. Observe que fazemos esse processamento apenas uma vez, portanto, ainda é uma aproximação, ou seja, o grafo resultante pode ter nós com menos de K links.
  • Usando filtros de localidade e contagem, finalizamos 6 versões do conjunto de dados do WebGraph, resumidas na tabela a seguir.
Versão domínio de nível superior contagem mínima Núm. de nós Num arestas
escasso 10 365,4 milhões 30B
denso 50 136,5 milhões 22B
esparso de 10 19,7 milhões 1.19B
desdensa de 50 5,7M 0,82B
escasso dentro 10 1,5M 0,14B
denso dentro 50 0,5M 0,12B

Todas as versões do conjunto de dados têm os seguintes recursos:

  • "row_tag": um identificador exclusivo da linha (link de origem).
  • "col_tag": uma lista de identificadores exclusivos de colunas diferentes de zero (outlinks de destino).
  • "gt_tag": uma lista de identificadores exclusivos de colunas diferentes de zero usadas como base de dados (dest outlinks), vazia para divisões train/train_t.

  • Página inicial : https://arxiv.org/abs/2112.02194

  • Código -fonte: tfds.structured.web_graph.WebGraph

  • Versões :

    • 1.0.0 (padrão): versão inicial.
  • Tamanho do download : Unknown size

  • Armazenado em cache automaticamente ( documentação ): Não

  • Estrutura de recursos :

FeaturesDict({
    'col_tag': Sequence(int64),
    'gt_tag': Sequence(int64),
    'row_tag': int64,
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
col_tag Sequência(Tensor) (Nenhum,) int64
gt_tag Sequência(Tensor) (Nenhum,) int64
linha_tag tensor int64
@article{mehta2021alx,
    title={ALX: Large Scale Matrix Factorization on TPUs},
    author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
    year={2021},
    eprint={2112.02194},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

web_graph/sparse (configuração padrão)

  • Descrição da configuração : WebGraph-sparse contém cerca de 30B de arestas e cerca de 365M de nós.

  • Tamanho do conjunto de dados : 273.38 GiB

  • Divisões :

Dividir Exemplos
'test' 39.871.321
'train' 372.049.054
'train_t' 410.867.007

web_graph/denso

  • Descrição da configuração : WebGraph-dense contém cerca de 22B de arestas e cerca de 136,5M de nós.

  • Tamanho do conjunto de dados : 170.87 GiB

  • Divisões :

Dividir Exemplos
'test' 13.256.496
'train' 122.815.749
'train_t' 136.019.364

web_graph/de-sparse

  • Descrição da configuração : WebGraph-de-sparse contém cerca de 1,19B de arestas e cerca de 19,7M de nós.

  • Tamanho do conjunto de dados : 10.25 GiB

  • Divisões :

Dividir Exemplos
'test' 1.903.443
'train' 17.688.633
'train_t' 19.566.045

web_graph/de-dense

  • Descrição da configuração : WebGraph-de-dense contém cerca de 0,82B de arestas e cerca de 5,7M de nós.

  • Tamanho do conjunto de dados : 5.90 GiB

  • Divisões :

Dividir Exemplos
'test' 553.270
'train' 5.118.902
'train_t' 5.672.473

web_graph/in-sparse

  • Descrição da configuração : WebGraph-de-sparse contém cerca de 0,14B de arestas e cerca de 1,5M de nós.

  • Tamanho do conjunto de dados : 960.57 MiB

  • Divisões :

Dividir Exemplos
'test' 140.313
'train' 1.309.063
'train_t' 1.445.042

web_graph/in-dense

  • Descrição da configuração : WebGraph-de-dense contém cerca de 0,12B de arestas e cerca de 0,5M de nós.

  • Tamanho do conjunto de dados : 711.72 MiB

  • Divisões :

Dividir Exemplos
'test' 47.894
'train' 443.786
'train_t' 491.634