- Descrição :
Este conjunto de dados contém um gráfico esparso que representa a estrutura de links da Web para um pequeno subconjunto da Web.
É uma versão processada de um único rastreamento realizado pelo CommonCrawl em 2021, onde removemos tudo e mantemos apenas a estrutura link->outlinks. O conjunto de dados final é basicamente o formato int -> List[int] com cada ID inteiro representando uma url.
Além disso, para aumentar o valor desse recurso, criamos 6 versões diferentes do WebGraph, cada uma variando no padrão de esparsidade e localidade. Tomamos as seguintes etapas de processamento, em ordem:
- Começamos com arquivos WAT do rastreamento de junho de 2021.
- Como os outlinks em HTTP-Response-Metadata são armazenados como caminhos relativos, nós os convertemos em caminhos absolutos usando urllib após validar cada link.
- Para estudar gráficos específicos de localidade, filtramos ainda mais com base em 2 domínios de nível superior: 'de' e 'in', cada um produzindo um gráfico com uma ordem de magnitude menor do número de nós.
- Esses gráficos ainda podem ter padrões arbitrários de dispersão e links pendentes. Assim, filtramos ainda mais os nós em cada grafo para ter um mínimo de K ∈ [10, 50] inlinks e outlinks. Observe que fazemos esse processamento apenas uma vez, portanto, ainda é uma aproximação, ou seja, o grafo resultante pode ter nós com menos de K links.
- Usando filtros de localidade e contagem, finalizamos 6 versões do conjunto de dados do WebGraph, resumidas na tabela a seguir.
Versão | domínio de nível superior | contagem mínima | Núm. de nós | Num arestas |
---|---|---|---|---|
escasso | 10 | 365,4 milhões | 30B | |
denso | 50 | 136,5 milhões | 22B | |
esparso | de | 10 | 19,7 milhões | 1.19B |
desdensa | de | 50 | 5,7M | 0,82B |
escasso | dentro | 10 | 1,5M | 0,14B |
denso | dentro | 50 | 0,5M | 0,12B |
Todas as versões do conjunto de dados têm os seguintes recursos:
- "row_tag": um identificador exclusivo da linha (link de origem).
- "col_tag": uma lista de identificadores exclusivos de colunas diferentes de zero (outlinks de destino).
"gt_tag": uma lista de identificadores exclusivos de colunas diferentes de zero usadas como base de dados (dest outlinks), vazia para divisões train/train_t.
Página inicial : https://arxiv.org/abs/2112.02194
Código -fonte:
tfds.structured.web_graph.WebGraph
Versões :
-
1.0.0
(padrão): versão inicial.
-
Tamanho do download :
Unknown size
Armazenado em cache automaticamente ( documentação ): Não
Estrutura de recursos :
FeaturesDict({
'col_tag': Sequence(int64),
'gt_tag': Sequence(int64),
'row_tag': int64,
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
col_tag | Sequência(Tensor) | (Nenhum,) | int64 | |
gt_tag | Sequência(Tensor) | (Nenhum,) | int64 | |
linha_tag | tensor | int64 |
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não suportado.
Citação :
@article{mehta2021alx,
title={ALX: Large Scale Matrix Factorization on TPUs},
author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
year={2021},
eprint={2112.02194},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
web_graph/sparse (configuração padrão)
Descrição da configuração : WebGraph-sparse contém cerca de 30B de arestas e cerca de 365M de nós.
Tamanho do conjunto de dados :
273.38 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 39.871.321 |
'train' | 372.049.054 |
'train_t' | 410.867.007 |
- Exemplos ( tfds.as_dataframe ):
web_graph/denso
Descrição da configuração : WebGraph-dense contém cerca de 22B de arestas e cerca de 136,5M de nós.
Tamanho do conjunto de dados :
170.87 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 13.256.496 |
'train' | 122.815.749 |
'train_t' | 136.019.364 |
- Exemplos ( tfds.as_dataframe ):
web_graph/de-sparse
Descrição da configuração : WebGraph-de-sparse contém cerca de 1,19B de arestas e cerca de 19,7M de nós.
Tamanho do conjunto de dados :
10.25 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 1.903.443 |
'train' | 17.688.633 |
'train_t' | 19.566.045 |
- Exemplos ( tfds.as_dataframe ):
web_graph/de-dense
Descrição da configuração : WebGraph-de-dense contém cerca de 0,82B de arestas e cerca de 5,7M de nós.
Tamanho do conjunto de dados :
5.90 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 553.270 |
'train' | 5.118.902 |
'train_t' | 5.672.473 |
- Exemplos ( tfds.as_dataframe ):
web_graph/in-sparse
Descrição da configuração : WebGraph-de-sparse contém cerca de 0,14B de arestas e cerca de 1,5M de nós.
Tamanho do conjunto de dados :
960.57 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 140.313 |
'train' | 1.309.063 |
'train_t' | 1.445.042 |
- Exemplos ( tfds.as_dataframe ):
web_graph/in-dense
Descrição da configuração : WebGraph-de-dense contém cerca de 0,12B de arestas e cerca de 0,5M de nós.
Tamanho do conjunto de dados :
711.72 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 47.894 |
'train' | 443.786 |
'train_t' | 491.634 |
- Exemplos ( tfds.as_dataframe ):