- Descripción :
ProteinNet es un conjunto de datos estandarizados para el aprendizaje automático de la estructura de proteínas. Proporciona secuencias de proteínas, estructuras (secundarias y terciarias), alineamientos de secuencias múltiples (MSA), matrices de puntuación específicas de posición (PSSM) y divisiones estandarizadas de entrenamiento/validación/prueba. ProteinNet se basa en las evaluaciones CASP bienales, que llevan a cabo predicciones ciegas de estructuras de proteínas recientemente resueltas pero no disponibles públicamente, para proporcionar conjuntos de pruebas que amplían las fronteras de la metodología computacional. Está organizado como una serie de conjuntos de datos, que abarca CASP 7 a 12 (que cubre un período de diez años), para proporcionar una gama de tamaños de conjuntos de datos que permiten la evaluación de nuevos métodos en regímenes relativamente pobres y ricos en datos.
Página de inicio: https://github.com/aqlaboratory/proteinnet
Código fuente :
tfds.datasets.protein_net.BuilderVersiones :
-
1.0.0(predeterminado): Versión inicial.
-
Almacenamiento automático en caché ( documentación ): No
Estructura de características :
FeaturesDict({
'evolutionary': Tensor(shape=(None, 21), dtype=float32),
'id': Text(shape=(), dtype=string),
'length': int32,
'mask': Tensor(shape=(None,), dtype=bool),
'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
- Documentación de características :
| Rasgo | Clase | Forma | Tipo D | Descripción |
|---|---|---|---|---|
| CaracterísticasDict | ||||
| evolutivo | Tensor | (Ninguno, 21) | flotar32 | |
| identificación | Texto | cadena | ||
| longitud | Tensor | int32 | ||
| máscara | Tensor | (Ninguno,) | bool | |
| primario | Secuencia (Etiqueta de clase) | (Ninguno,) | int64 | |
| terciario | Tensor | (Ninguno, 3) | flotar32 |
Claves supervisadas (ver
as_superviseddoc ):('primary', 'tertiary')Figura ( tfds.show_examples ): no compatible.
Cita :
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}
protein_net/casp7 (configuración predeterminada)
Tamaño de descarga :
3.18 GiBTamaño del conjunto de datos :
2.53 GiBDivisiones :
| Separar | Ejemplos |
|---|---|
'test' | 93 |
'train_100' | 34,557 |
'train_30' | 10,333 |
'train_50' | 13,024 |
'train_70' | 15,207 |
'train_90' | 17,611 |
'train_95' | 17,938 |
'validation' | 224 |
- Ejemplos ( tfds.as_dataframe ):
protein_net/casp8
Tamaño de descarga :
4.96 GiBTamaño del conjunto de datos :
3.55 GiBDivisiones :
| Separar | Ejemplos |
|---|---|
'test' | 120 |
'train_100' | 48,087 |
'train_30' | 13,881 |
'train_50' | 17,970 |
'train_70' | 21,191 |
'train_90' | 24,556 |
'train_95' | 25,035 |
'validation' | 224 |
- Ejemplos ( tfds.as_dataframe ):
protein_net/casp9
Tamaño de descarga :
6.65 GiBTamaño del conjunto de datos :
4.54 GiBDivisiones :
| Separar | Ejemplos |
|---|---|
'test' | 116 |
'train_100' | 60,350 |
'train_30' | 16,973 |
'train_50' | 22,172 |
'train_70' | 26,263 |
'train_90' | 30,513 |
'train_95' | 31,128 |
'validation' | 224 |
- Ejemplos ( tfds.as_dataframe ):
protein_net/casp10
Tamaño de descarga :
8.65 GiBTamaño del conjunto de datos :
5.57 GiBDivisiones :
| Separar | Ejemplos |
|---|---|
'test' | 95 |
'train_100' | 73,116 |
'train_30' | 19,495 |
'train_50' | 25,897 |
'train_70' | 31,001 |
'train_90' | 36,258 |
'train_95' | 37,033 |
'validation' | 224 |
- Ejemplos ( tfds.as_dataframe ):
protein_net/casp11
Tamaño de descarga :
10.81 GiBTamaño del conjunto de datos :
6.72 GiBDivisiones :
| Separar | Ejemplos |
|---|---|
'test' | 81 |
'train_100' | 87,573 |
'train_30' | 22,344 |
'train_50' | 29,936 |
'train_70' | 36,005 |
'train_90' | 42,507 |
'train_95' | 43,544 |
'validation' | 224 |
- Ejemplos ( tfds.as_dataframe ):
protein_net/casp12
Tamaño de descarga :
13.18 GiBTamaño del conjunto de datos :
8.05 GiBDivisiones :
| Separar | Ejemplos |
|---|---|
'test' | 40 |
'train_100' | 104,059 |
'train_30' | 25,299 |
'train_50' | 34,039 |
'train_70' | 41,522 |
'train_90' | 49,600 |
'train_95' | 50,914 |
'validation' | 224 |
- Ejemplos ( tfds.as_dataframe ):