proteina_net

Descrizione :

ProteinNet è un set di dati standardizzato per l'apprendimento automatico della struttura delle proteine. Fornisce sequenze proteiche, strutture (secondarie e terziarie), allineamenti di sequenze multiple (MSA), matrici di punteggio specifiche per posizione (PSSM) e divisioni standardizzate di addestramento/validazione/test. ProteinNet si basa sulle valutazioni CASP biennali, che eseguono previsioni cieche di strutture proteiche recentemente risolte ma non disponibili pubblicamente, per fornire set di test che spingono le frontiere della metodologia computazionale. È organizzato come una serie di set di dati, che vanno da CASP 7 a 12 (coprendo un periodo di dieci anni), per fornire una gamma di dimensioni di set di dati che consentono la valutazione di nuovi metodi in regimi relativamente poveri di dati e ricchi di dati.

Homepage : https://github.com/aqlaboratory/proteinnet
Codice sorgente : tfds.datasets.protein_net.Builder
Versioni :
- 1.0.0 (impostazione predefinita): versione iniziale.
Cache automatica ( documentazione ): No
Struttura delle caratteristiche :

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'length': int32,
    'mask': Tensor(shape=(None,), dtype=bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=float32),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
evolutivo	Tensore	(Nessuno, 21)	galleggiante32
id	Testo		corda
lunghezza	Tensore		int32
maschera	Tensore	(Nessuno,)	bool
primario	Sequenza(EtichettaClasse)	(Nessuno,)	int64
terziario	Tensore	(Nessuno, 3)	galleggiante32

Chiavi supervisionate (vedi as_supervised doc ): ('primary', 'tertiary')
Figura ( tfds.show_examples ): non supportato.
Citazione :

@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

protein_net/casp7 (configurazione predefinita)

Dimensione del download : 3.18 GiB
Dimensione del set di dati: 2.53 GiB
Divisioni :

Diviso	Esempi
`'test'`	93
`'train_100'`	34.557
`'train_30'`	10.333
`'train_50'`	13.024
`'train_70'`	15.207
`'train_90'`	17.611
`'train_95'`	17.938
`'validation'`	224

Esempi ( tfds.as_dataframe ):

protein_net/casp8

Dimensioni del download : 4.96 GiB
Dimensione del set di dati: 3.55 GiB
Divisioni :

Diviso	Esempi
`'test'`	120
`'train_100'`	48.087
`'train_30'`	13.881
`'train_50'`	17.970
`'train_70'`	21,191
`'train_90'`	24.556
`'train_95'`	25.035
`'validation'`	224

Esempi ( tfds.as_dataframe ):

protein_net/casp9

Dimensione del download : 6.65 GiB
Dimensione del set di dati: 4.54 GiB
Divisioni :

Diviso	Esempi
`'test'`	116
`'train_100'`	60.350
`'train_30'`	16.973
`'train_50'`	22.172
`'train_70'`	26.263
`'train_90'`	30.513
`'train_95'`	31.128
`'validation'`	224

Esempi ( tfds.as_dataframe ):

protein_net/casp10

Dimensione del download : 8.65 GiB
Dimensione del set di dati: 5.57 GiB
Divisioni :

Diviso	Esempi
`'test'`	95
`'train_100'`	73,116
`'train_30'`	19.495
`'train_50'`	25.897
`'train_70'`	31.001
`'train_90'`	36.258
`'train_95'`	37.033
`'validation'`	224

Esempi ( tfds.as_dataframe ):

protein_net/casp11

Dimensioni del download : 10.81 GiB
Dimensione del set di dati: 6.72 GiB
Divisioni :

Diviso	Esempi
`'test'`	81
`'train_100'`	87.573
`'train_30'`	22.344
`'train_50'`	29.936
`'train_70'`	36.005
`'train_90'`	42.507
`'train_95'`	43.544
`'validation'`	224

Esempi ( tfds.as_dataframe ):

protein_net/casp12

Dimensioni del download : 13.18 GiB
Dimensione del set di dati: 8.05 GiB
Divisioni :

Diviso	Esempi
`'test'`	40
`'train_100'`	104.059
`'train_30'`	25.299
`'train_50'`	34.039
`'train_70'`	41.522
`'train_90'`	49.600
`'train_95'`	50.914
`'validation'`	224

Esempi ( tfds.as_dataframe ):

proteina_net Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.