- Descrição :
'ogbg-molpcba' é um conjunto de dados moleculares amostrados do PubChem BioAssay. É um conjunto de dados de previsão de gráficos do Open Graph Benchmark (OGB).
Este conjunto de dados é experimental e a API está sujeita a alterações em versões futuras.
A descrição abaixo do conjunto de dados é adaptada do papel OGB:
Formato de entrada
Todas as moléculas são pré-processadas usando RDKit ([1]).
- Cada gráfico representa uma molécula, onde os nós são átomos e as arestas são ligações químicas.
- Os recursos do nó de entrada são de 9 dimensões, contendo número atômico e quiralidade, bem como outros recursos adicionais do átomo, como carga formal e se o átomo está no anel.
- Os recursos de borda de entrada são tridimensionais, contendo tipo de ligação, estereoquímica de ligação, bem como um recurso de ligação adicional indicando se a ligação é conjugada.
A descrição exata de todos os recursos está disponível em https://github.com/snap-stanford/ogb/blob/master/ogb/utils/features.py
Predição
A tarefa é prever 128 atividades biológicas diferentes (inativo/ativo). Veja [2] e [3] para mais descrições sobre esses alvos. Nem todos os alvos se aplicam a cada molécula: os alvos ausentes são indicados por NaNs.
Referências
[1]: Greg Landrum, e outros. 'RDKit: quimioinformática de código aberto'. URL: https://github.com/rdkit/rdkit
[2]: Bharath Ramsundar, Steven Kearnes, Patrick Riley, Dale Webster, David Konerding e Vijay Pande. 'Redes massivamente multitarefa para descoberta de drogas'. URL: https://arxiv.org/pdf/1502.02072.pdf
[3]: Zhenqin Wu, Bharath Ramsundar, Evan N Feinberg, Joseph Gomes, Caleb Geniesse, Aneesh S. Pappu, Karl Leswing e Vijay Pande. MoleculeNet: uma referência para aprendizado de máquina molecular. Ciência Química, 9(2):513-530, 2018.
Página inicial : https://ogb.stanford.edu/docs/graphprop
Código -fonte:
tfds.datasets.ogbg_molpcba.Builder
Versões :
-
0.1.0
: versão inicial da API experimental. -
0.1.1
: Expõe explicitamente o número de arestas em cada grafo. -
0.1.2
: Adicionar campo de metadados para GraphVisualizer. -
0.1.3
(padrão): Adicionar campo de metadados para nomes de tarefas individuais.
-
Tamanho do download :
37.70 MiB
Tamanho do conjunto de dados :
822.53 MiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'test' | 43.793 |
'train' | 350.343 |
'validation' | 43.793 |
- Estrutura de recursos :
FeaturesDict({
'edge_feat': Tensor(shape=(None, 3), dtype=float32),
'edge_index': Tensor(shape=(None, 2), dtype=int64),
'labels': Tensor(shape=(128,), dtype=float32),
'node_feat': Tensor(shape=(None, 9), dtype=float32),
'num_edges': Tensor(shape=(None,), dtype=int64),
'num_nodes': Tensor(shape=(None,), dtype=int64),
})
- Documentação do recurso:
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
edge_feat | tensor | (Nenhuma, 3) | float32 | |
edge_index | tensor | (Nenhuma, 2) | int64 | |
rótulos | tensor | (128,) | float32 | |
node_feat | tensor | (Nenhuma, 9) | float32 | |
num_edges | tensor | (Nenhum,) | int64 | |
num_nodes | tensor | (Nenhum,) | int64 |
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ):
- Exemplos ( tfds.as_dataframe ):
- Citação :
@inproceedings{DBLP:conf/nips/HuFZDRLCL20,
author = {Weihua Hu and
Matthias Fey and
Marinka Zitnik and
Yuxiao Dong and
Hongyu Ren and
Bowen Liu and
Michele Catasta and
Jure Leskovec},
editor = {Hugo Larochelle and
Marc Aurelio Ranzato and
Raia Hadsell and
Maria{-}Florina Balcan and
Hsuan{-}Tien Lin},
title = {Open Graph Benchmark: Datasets for Machine Learning on Graphs},
booktitle = {Advances in Neural Information Processing Systems 33: Annual Conference
on Neural Information Processing Systems 2020, NeurIPS 2020, December
6-12, 2020, virtual},
year = {2020},
url = {https://proceedings.neurips.cc/paper/2020/hash/fb60d411a5c5b72b2e7d3527cfc84fd0-Abstract.html},
timestamp = {Tue, 19 Jan 2021 15:57:06 +0100},
biburl = {https://dblp.org/rec/conf/nips/HuFZDRLCL20.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}