cardiotox

  • Descrição :

O conjunto de dados de cardiotoxicidade de drogas [1-2] é uma tarefa de classificação de moléculas para detectar a cardiotoxicidade causada pela ligação do alvo hERG, uma proteína associada ao ritmo cardíaco. Os dados abrangem mais de 9.000 moléculas com atividade hERG.

  1. Os dados são divididos em quatro divisões: train, test-iid, test-ood1, test-ood2.

  2. Cada molécula no conjunto de dados possui anotações em gráficos 2D, projetadas para facilitar a modelagem de redes neurais em gráficos. Os nós são os átomos da molécula e as arestas são as ligações. Cada átomo é representado como um vetor que codifica as informações básicas do átomo, como o tipo de átomo. Lógica semelhante se aplica aos títulos.

  3. Incluímos a distância da impressão digital Tanimoto (para dados de treinamento) para cada molécula nos conjuntos de teste para facilitar a pesquisa sobre mudança de distribuição no domínio do gráfico.

Para cada exemplo, os recursos incluem: átomos: um tensor 2D com forma (60, 27) armazenando recursos de nó. Moléculas com menos de 60 átomos são preenchidas com zeros. Cada átomo tem 27 características atômicas. pares: um tensor 3D com forma (60, 60, 12) armazenando recursos de borda. Cada borda tem 12 recursos de borda. atom_mask: um tensor 1D com forma (60, ) armazenando máscaras de nós. 1 indica que o átomo correspondente é real, caso contrário, é preenchido. pair_mask: um tensor 2D com forma (60, 60) armazenando máscaras de borda. 1 indica que a borda correspondente é real, caso contrário, é preenchida. ativo: um vetor one-hot indicando se a molécula é tóxica ou não. [0, 1] indica que é tóxico, caso contrário [1, 0] não tóxico.

Referências

[1]: VB Siramshetty et al. Avaliação Crítica de Métodos de Inteligência Artificial para Predição da Inibição do Canal hERG na Era do Big Data. JCIM, 2020. https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884

[2]: K. Han et al. Redes neurais de gráfico confiáveis ​​para descoberta de medicamentos sob mudança de distribuição. NeurIPS DistShift Workshop 2021. https://arxiv.org/abs/2111.12951 See More

Dividir Exemplos
'test' 839
'test2' 177
'train' 6.523
'validation' 1.631
  • Estrutura de recursos :
FeaturesDict({
    'active': Tensor(shape=(2,), dtype=int64),
    'atom_mask': Tensor(shape=(60,), dtype=float32),
    'atoms': Tensor(shape=(60, 27), dtype=float32),
    'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
    'molecule_id': string,
    'pair_mask': Tensor(shape=(60, 60), dtype=float32),
    'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
ativo tensor (2,) int64
máscara_atômica tensor (60,) float32
átomos tensor (60, 27) float32
dist2topk_nbs tensor (1,) float32
molécula_id tensor corda
pair_mask tensor (60, 60) float32
pares tensor (60, 60, 12) float32
  • Citação :
@ARTICLE{Han2021-tu,
  title         = "Reliable Graph Neural Networks for Drug Discovery Under
                   Distributional Shift",
  author        = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
  month         =  nov,
  year          =  2021,
  archivePrefix = "arXiv",
  primaryClass  = "cs.LG",
  eprint        = "2111.12951"
}