- Descrição :
O conjunto de dados de cardiotoxicidade de drogas [1-2] é uma tarefa de classificação de moléculas para detectar a cardiotoxicidade causada pela ligação do alvo hERG, uma proteína associada ao ritmo cardíaco. Os dados abrangem mais de 9.000 moléculas com atividade hERG.
Os dados são divididos em quatro divisões: train, test-iid, test-ood1, test-ood2.
Cada molécula no conjunto de dados possui anotações em gráficos 2D, projetadas para facilitar a modelagem de redes neurais em gráficos. Os nós são os átomos da molécula e as arestas são as ligações. Cada átomo é representado como um vetor que codifica as informações básicas do átomo, como o tipo de átomo. Lógica semelhante se aplica aos títulos.
Incluímos a distância da impressão digital Tanimoto (para dados de treinamento) para cada molécula nos conjuntos de teste para facilitar a pesquisa sobre mudança de distribuição no domínio do gráfico.
Para cada exemplo, os recursos incluem: átomos: um tensor 2D com forma (60, 27) armazenando recursos de nó. Moléculas com menos de 60 átomos são preenchidas com zeros. Cada átomo tem 27 características atômicas. pares: um tensor 3D com forma (60, 60, 12) armazenando recursos de borda. Cada borda tem 12 recursos de borda. atom_mask: um tensor 1D com forma (60, ) armazenando máscaras de nós. 1 indica que o átomo correspondente é real, caso contrário, é preenchido. pair_mask: um tensor 2D com forma (60, 60) armazenando máscaras de borda. 1 indica que a borda correspondente é real, caso contrário, é preenchida. ativo: um vetor one-hot indicando se a molécula é tóxica ou não. [0, 1] indica que é tóxico, caso contrário [1, 0] não tóxico.
Referências
[1]: VB Siramshetty et al. Avaliação Crítica de Métodos de Inteligência Artificial para Predição da Inibição do Canal hERG na Era do Big Data. JCIM, 2020. https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884
[2]: K. Han et al. Redes neurais de gráfico confiáveis para descoberta de medicamentos sob mudança de distribuição. NeurIPS DistShift Workshop 2021. https://arxiv.org/abs/2111.12951 See More
Página inicial : https://github.com/google/uncertainty-baselines/tree/main/baselines/drug_cardiotoxicity
Código fonte :
tfds.graphs.cardiotox.Cardiotox
Versões :
-
1.0.0
(padrão): versão inicial.
-
Tamanho do download :
Unknown size
Tamanho do conjunto de dados :
1.66 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'test' | 839 |
'test2' | 177 |
'train' | 6.523 |
'validation' | 1.631 |
- Estrutura de recursos :
FeaturesDict({
'active': Tensor(shape=(2,), dtype=int64),
'atom_mask': Tensor(shape=(60,), dtype=float32),
'atoms': Tensor(shape=(60, 27), dtype=float32),
'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
'molecule_id': string,
'pair_mask': Tensor(shape=(60, 60), dtype=float32),
'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
ativo | tensor | (2,) | int64 | |
máscara_atômica | tensor | (60,) | float32 | |
átomos | tensor | (60, 27) | float32 | |
dist2topk_nbs | tensor | (1,) | float32 | |
molécula_id | tensor | corda | ||
pair_mask | tensor | (60, 60) | float32 | |
pares | tensor | (60, 60, 12) | float32 |
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ):
- Citação :
@ARTICLE{Han2021-tu,
title = "Reliable Graph Neural Networks for Drug Discovery Under
Distributional Shift",
author = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
month = nov,
year = 2021,
archivePrefix = "arXiv",
primaryClass = "cs.LG",
eprint = "2111.12951"
}