- Descripción :
ProteinNet es un conjunto de datos estandarizados para el aprendizaje automático de la estructura de proteínas. Proporciona secuencias de proteínas, estructuras (secundarias y terciarias), alineamientos de secuencias múltiples (MSA), matrices de puntuación específicas de posición (PSSM) y divisiones estandarizadas de entrenamiento/validación/prueba. ProteinNet se basa en las evaluaciones CASP bienales, que llevan a cabo predicciones ciegas de estructuras de proteínas recientemente resueltas pero no disponibles públicamente, para proporcionar conjuntos de pruebas que amplían las fronteras de la metodología computacional. Está organizado como una serie de conjuntos de datos, que abarca CASP 7 a 12 (que cubre un período de diez años), para proporcionar una gama de tamaños de conjuntos de datos que permiten la evaluación de nuevos métodos en regímenes relativamente pobres y ricos en datos.
Página de inicio: https://github.com/aqlaboratory/proteinnet
Código fuente :
tfds.datasets.protein_net.Builder
Versiones :
-
1.0.0
(predeterminado): Versión inicial.
-
Almacenamiento automático en caché ( documentación ): No
Estructura de características :
FeaturesDict({
'evolutionary': Tensor(shape=(None, 21), dtype=float32),
'id': Text(shape=(), dtype=string),
'length': int32,
'mask': Tensor(shape=(None,), dtype=bool),
'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
evolutivo | Tensor | (Ninguno, 21) | flotar32 | |
identificación | Texto | cadena | ||
longitud | Tensor | int32 | ||
máscara | Tensor | (Ninguno,) | bool | |
primario | Secuencia (Etiqueta de clase) | (Ninguno,) | int64 | |
terciario | Tensor | (Ninguno, 3) | flotar32 |
Claves supervisadas (ver
as_supervised
doc ):('primary', 'tertiary')
Figura ( tfds.show_examples ): no compatible.
Cita :
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}
protein_net/casp7 (configuración predeterminada)
Tamaño de descarga :
3.18 GiB
Tamaño del conjunto de datos :
2.53 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 93 |
'train_100' | 34,557 |
'train_30' | 10,333 |
'train_50' | 13,024 |
'train_70' | 15,207 |
'train_90' | 17,611 |
'train_95' | 17,938 |
'validation' | 224 |
- Ejemplos ( tfds.as_dataframe ):
protein_net/casp8
Tamaño de descarga :
4.96 GiB
Tamaño del conjunto de datos :
3.55 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 120 |
'train_100' | 48,087 |
'train_30' | 13,881 |
'train_50' | 17,970 |
'train_70' | 21,191 |
'train_90' | 24,556 |
'train_95' | 25,035 |
'validation' | 224 |
- Ejemplos ( tfds.as_dataframe ):
protein_net/casp9
Tamaño de descarga :
6.65 GiB
Tamaño del conjunto de datos :
4.54 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 116 |
'train_100' | 60,350 |
'train_30' | 16,973 |
'train_50' | 22,172 |
'train_70' | 26,263 |
'train_90' | 30,513 |
'train_95' | 31,128 |
'validation' | 224 |
- Ejemplos ( tfds.as_dataframe ):
protein_net/casp10
Tamaño de descarga :
8.65 GiB
Tamaño del conjunto de datos :
5.57 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 95 |
'train_100' | 73,116 |
'train_30' | 19,495 |
'train_50' | 25,897 |
'train_70' | 31,001 |
'train_90' | 36,258 |
'train_95' | 37,033 |
'validation' | 224 |
- Ejemplos ( tfds.as_dataframe ):
protein_net/casp11
Tamaño de descarga :
10.81 GiB
Tamaño del conjunto de datos :
6.72 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 81 |
'train_100' | 87,573 |
'train_30' | 22,344 |
'train_50' | 29,936 |
'train_70' | 36,005 |
'train_90' | 42,507 |
'train_95' | 43,544 |
'validation' | 224 |
- Ejemplos ( tfds.as_dataframe ):
protein_net/casp12
Tamaño de descarga :
13.18 GiB
Tamaño del conjunto de datos :
8.05 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 40 |
'train_100' | 104,059 |
'train_30' | 25,299 |
'train_50' | 34,039 |
'train_70' | 41,522 |
'train_90' | 49,600 |
'train_95' | 50,914 |
'validation' | 224 |
- Ejemplos ( tfds.as_dataframe ):