- Descrição :
ProteinNet é um conjunto de dados padronizado para aprendizado de máquina da estrutura da proteína. Ele fornece sequências de proteínas, estruturas (secundárias e terciárias), alinhamentos de sequência múltipla (MSAs), matrizes de pontuação específicas de posição (PSSMs) e divisões padronizadas de treinamento/validação/teste. O ProteinNet baseia-se nas avaliações CASP bienais, que realizam previsões cegas de estruturas de proteínas recentemente resolvidas, mas publicamente indisponíveis, para fornecer conjuntos de testes que ultrapassam as fronteiras da metodologia computacional. Ele é organizado como uma série de conjuntos de dados, abrangendo CASP 7 a 12 (cobrindo um período de dez anos), para fornecer uma variedade de tamanhos de conjuntos de dados que permitem a avaliação de novos métodos em regimes relativamente pobres e ricos em dados.
Página inicial : https://github.com/aqlaboratory/proteinnet
Código -fonte:
tfds.datasets.protein_net.Builder
Versões :
-
1.0.0
(padrão): versão inicial.
-
Armazenado em cache automaticamente ( documentação ): Não
Estrutura de recursos :
FeaturesDict({
'evolutionary': Tensor(shape=(None, 21), dtype=float32),
'id': Text(shape=(), dtype=string),
'length': int32,
'mask': Tensor(shape=(None,), dtype=bool),
'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
evolutivo | tensor | (Nenhuma, 21) | float32 | |
Eu iria | Texto | corda | ||
comprimento | tensor | int32 | ||
mascarar | tensor | (Nenhum,) | bool | |
primário | Sequência(ClassLabel) | (Nenhum,) | int64 | |
terciário | tensor | (Nenhuma, 3) | float32 |
Chaves supervisionadas (Consulte
as_supervised
doc ):('primary', 'tertiary')
Figura ( tfds.show_examples ): Não suportado.
Citação :
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}
protein_net/casp7 (configuração padrão)
Tamanho do download :
3.18 GiB
Tamanho do conjunto de dados :
2.53 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 93 |
'train_100' | 34.557 |
'train_30' | 10.333 |
'train_50' | 13.024 |
'train_70' | 15.207 |
'train_90' | 17.611 |
'train_95' | 17.938 |
'validation' | 224 |
- Exemplos ( tfds.as_dataframe ):
protein_net/casp8
Tamanho do download :
4.96 GiB
Tamanho do conjunto de dados :
3.55 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 120 |
'train_100' | 48.087 |
'train_30' | 13.881 |
'train_50' | 17.970 |
'train_70' | 21.191 |
'train_90' | 24.556 |
'train_95' | 25.035 |
'validation' | 224 |
- Exemplos ( tfds.as_dataframe ):
protein_net/casp9
Tamanho do download :
6.65 GiB
Tamanho do conjunto de dados :
4.54 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 116 |
'train_100' | 60.350 |
'train_30' | 16.973 |
'train_50' | 22.172 |
'train_70' | 26.263 |
'train_90' | 30.513 |
'train_95' | 31.128 |
'validation' | 224 |
- Exemplos ( tfds.as_dataframe ):
protein_net/casp10
Tamanho do download :
8.65 GiB
Tamanho do conjunto de dados :
5.57 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 95 |
'train_100' | 73.116 |
'train_30' | 19.495 |
'train_50' | 25.897 |
'train_70' | 31.001 |
'train_90' | 36.258 |
'train_95' | 37.033 |
'validation' | 224 |
- Exemplos ( tfds.as_dataframe ):
protein_net/casp11
Tamanho do download :
10.81 GiB
Tamanho do conjunto de dados :
6.72 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 81 |
'train_100' | 87.573 |
'train_30' | 22.344 |
'train_50' | 29.936 |
'train_70' | 36.005 |
'train_90' | 42.507 |
'train_95' | 43.544 |
'validation' | 224 |
- Exemplos ( tfds.as_dataframe ):
protein_net/casp12
Tamanho do download :
13.18 GiB
Tamanho do conjunto de dados :
8.05 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 40 |
'train_100' | 104.059 |
'train_30' | 25.299 |
'train_50' | 34.039 |
'train_70' | 41.522 |
'train_90' | 49.600 |
'train_95' | 50.914 |
'validation' | 224 |
- Exemplos ( tfds.as_dataframe ):