protein_net

Descriptif :

ProteinNet est un ensemble de données standardisé pour l'apprentissage automatique de la structure des protéines. Il fournit des séquences de protéines, des structures (secondaires et tertiaires), des alignements de séquences multiples (MSA), des matrices de notation spécifiques à la position (PSSM) et des fractionnements de formation/validation/test standardisés. ProteinNet s'appuie sur les évaluations biennales du CASP, qui effectuent des prédictions à l'aveugle de structures protéiques récemment résolues mais non disponibles publiquement, pour fournir des ensembles de tests qui repoussent les frontières de la méthodologie informatique. Il est organisé en une série d'ensembles de données, couvrant les CASP 7 à 12 (couvrant une période de dix ans), pour fournir une gamme de tailles d'ensembles de données qui permettent l'évaluation de nouvelles méthodes dans des régimes relativement pauvres en données et riches en données.

Page d' accueil : https://github.com/aqlaboratory/proteinnet
Code source : tfds.datasets.protein_net.Builder
Versions :
- 1.0.0 (par défaut) : version initiale.
Mise en cache automatique ( documentation ): Non
Structure des fonctionnalités :

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'length': int32,
    'mask': Tensor(shape=(None,), dtype=bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=float32),
})

Documentation des fonctionnalités :

Caractéristique	Classer	Forme	Dtype
	FonctionnalitésDict
évolutionniste	Tenseur	(Aucun, 21)	float32
identifiant	Texte		chaîne de caractères
longueur	Tenseur		int32
masque	Tenseur	(Aucun,)	bourdonner
primaire	Séquence(ClassLabel)	(Aucun,)	int64
tertiaire	Tenseur	(Aucun, 3)	float32

Clés supervisées (Voir as_supervised doc ): ('primary', 'tertiary')
Figure ( tfds.show_examples ) : non pris en charge.
Citation :

@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

protein_net/casp7 (configuration par défaut)

Taille du téléchargement : 3.18 GiB
Taille du jeu de données : 2.53 GiB
Fractionnements :

Diviser	Exemples
`'test'`	93
`'train_100'`	34 557
`'train_30'`	10 333
`'train_50'`	13 024
`'train_70'`	15 207
`'train_90'`	17 611
`'train_95'`	17 938
`'validation'`	224

Exemples ( tfds.as_dataframe ):

protein_net/casp8

Taille du téléchargement : 4.96 GiB
Taille du jeu de données : 3.55 GiB
Fractionnements :

Diviser	Exemples
`'test'`	120
`'train_100'`	48 087
`'train_30'`	13 881
`'train_50'`	17 970
`'train_70'`	21 191
`'train_90'`	24 556
`'train_95'`	25 035
`'validation'`	224

Exemples ( tfds.as_dataframe ):

protein_net/casp9

Taille du téléchargement : 6.65 GiB
Taille du jeu de données : 4.54 GiB
Fractionnements :

Diviser	Exemples
`'test'`	116
`'train_100'`	60 350
`'train_30'`	16 973
`'train_50'`	22 172
`'train_70'`	26 263
`'train_90'`	30 513
`'train_95'`	31 128
`'validation'`	224

Exemples ( tfds.as_dataframe ):

protein_net/casp10

Taille du téléchargement : 8.65 GiB
Taille du jeu de données : 5.57 GiB
Fractionnements :

Diviser	Exemples
`'test'`	95
`'train_100'`	73 116
`'train_30'`	19 495
`'train_50'`	25 897
`'train_70'`	31 001
`'train_90'`	36 258
`'train_95'`	37 033
`'validation'`	224

Exemples ( tfds.as_dataframe ):

protein_net/casp11

Taille du téléchargement : 10.81 GiB
Taille du jeu de données : 6.72 GiB
Fractionnements :

Diviser	Exemples
`'test'`	81
`'train_100'`	87 573
`'train_30'`	22 344
`'train_50'`	29 936
`'train_70'`	36 005
`'train_90'`	42 507
`'train_95'`	43 544
`'validation'`	224

Exemples ( tfds.as_dataframe ):

protein_net/casp12

Taille du téléchargement : 13.18 GiB
Taille du jeu de données : 8.05 GiB
Fractionnements :

Diviser	Exemples
`'test'`	40
`'train_100'`	104 059
`'train_30'`	25 299
`'train_50'`	34 039
`'train_70'`	41 522
`'train_90'`	49 600
`'train_95'`	50 914
`'validation'`	224

Exemples ( tfds.as_dataframe ):

protein_net Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.