Aprenda o que há de mais recente em aprendizado de máquina, IA generativa e muito mais no WiML Symposium 2023 Registre-se

Esta página foi traduzida pela API Cloud Translation.

protein_net

Descrição :

ProteinNet é um conjunto de dados padronizado para aprendizado de máquina da estrutura da proteína. Ele fornece sequências de proteínas, estruturas (secundárias e terciárias), alinhamentos de sequência múltipla (MSAs), matrizes de pontuação específicas de posição (PSSMs) e divisões padronizadas de treinamento/validação/teste. O ProteinNet baseia-se nas avaliações CASP bienais, que realizam previsões cegas de estruturas de proteínas recentemente resolvidas, mas publicamente indisponíveis, para fornecer conjuntos de testes que ultrapassam as fronteiras da metodologia computacional. Ele é organizado como uma série de conjuntos de dados, abrangendo CASP 7 a 12 (cobrindo um período de dez anos), para fornecer uma variedade de tamanhos de conjuntos de dados que permitem a avaliação de novos métodos em regimes relativamente pobres e ricos em dados.

Página inicial : https://github.com/aqlaboratory/proteinnet
Código -fonte: tfds.datasets.protein_net.Builder
Versões :
- 1.0.0 (padrão): versão inicial.
Armazenado em cache automaticamente ( documentação ): Não
Estrutura de recursos :

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'length': int32,
    'mask': Tensor(shape=(None,), dtype=bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=float32),
})

Documentação do recurso:

Característica	Classe	Forma	Tipo D
	RecursosDict
evolutivo	tensor	(Nenhuma, 21)	float32
Eu iria	Texto		corda
comprimento	tensor		int32
mascarar	tensor	(Nenhum,)	bool
primário	Sequência(ClassLabel)	(Nenhum,)	int64
terciário	tensor	(Nenhuma, 3)	float32

Chaves supervisionadas (Consulte as_supervised doc ): ('primary', 'tertiary')
Figura ( tfds.show_examples ): Não suportado.
Citação :

@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

protein_net/casp7 (configuração padrão)

Tamanho do download : 3.18 GiB
Tamanho do conjunto de dados : 2.53 GiB
Divisões :

Dividir	Exemplos
`'test'`	93
`'train_100'`	34.557
`'train_30'`	10.333
`'train_50'`	13.024
`'train_70'`	15.207
`'train_90'`	17.611
`'train_95'`	17.938
`'validation'`	224

Exemplos ( tfds.as_dataframe ):

protein_net/casp8

Tamanho do download : 4.96 GiB
Tamanho do conjunto de dados : 3.55 GiB
Divisões :

Dividir	Exemplos
`'test'`	120
`'train_100'`	48.087
`'train_30'`	13.881
`'train_50'`	17.970
`'train_70'`	21.191
`'train_90'`	24.556
`'train_95'`	25.035
`'validation'`	224

Exemplos ( tfds.as_dataframe ):

protein_net/casp9

Tamanho do download : 6.65 GiB
Tamanho do conjunto de dados : 4.54 GiB
Divisões :

Dividir	Exemplos
`'test'`	116
`'train_100'`	60.350
`'train_30'`	16.973
`'train_50'`	22.172
`'train_70'`	26.263
`'train_90'`	30.513
`'train_95'`	31.128
`'validation'`	224

Exemplos ( tfds.as_dataframe ):

protein_net/casp10

Tamanho do download : 8.65 GiB
Tamanho do conjunto de dados : 5.57 GiB
Divisões :

Dividir	Exemplos
`'test'`	95
`'train_100'`	73.116
`'train_30'`	19.495
`'train_50'`	25.897
`'train_70'`	31.001
`'train_90'`	36.258
`'train_95'`	37.033
`'validation'`	224

Exemplos ( tfds.as_dataframe ):

protein_net/casp11

Tamanho do download : 10.81 GiB
Tamanho do conjunto de dados : 6.72 GiB
Divisões :

Dividir	Exemplos
`'test'`	81
`'train_100'`	87.573
`'train_30'`	22.344
`'train_50'`	29.936
`'train_70'`	36.005
`'train_90'`	42.507
`'train_95'`	43.544
`'validation'`	224

Exemplos ( tfds.as_dataframe ):

protein_net/casp12

Tamanho do download : 13.18 GiB
Tamanho do conjunto de dados : 8.05 GiB
Divisões :

Dividir	Exemplos
`'test'`	40
`'train_100'`	104.059
`'train_30'`	25.299
`'train_50'`	34.039
`'train_70'`	41.522
`'train_90'`	49.600
`'train_95'`	50.914
`'validation'`	224

Exemplos ( tfds.as_dataframe ):

protein_net Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.