białko_sieć

  • opis :

ProteinNet to znormalizowany zestaw danych do uczenia maszynowego struktury białek. Zapewnia sekwencje białek, struktury (drugorzędowe i trzeciorzędowe), dopasowania wielu sekwencji (MSA), macierze punktacji specyficzne dla pozycji (PSSM) oraz standaryzowane podziały treningu / walidacji / testu. ProteinNet opiera się na przeprowadzanych co dwa lata ocenach CASP, które przeprowadzają ślepe prognozy niedawno rozwiązanych, ale publicznie niedostępnych struktur białek, aby zapewnić zestawy testów, które przesuwają granice metodologii obliczeniowej. Jest zorganizowana jako seria zestawów danych, obejmująca CASP 7 do 12 (obejmujących okres dziesięciu lat), aby zapewnić zakres rozmiarów zestawów danych, które umożliwiają ocenę nowych metod w systemach stosunkowo ubogich w dane i bogatych w dane.

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'length': int32,
    'mask': Tensor(shape=(None,), dtype=bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
ewolucyjny Napinacz (Brak, 21) pływak32
ID Tekst strunowy
długość Napinacz int32
maska Napinacz (Nic,) bool
podstawowy Sekwencja (etykieta klasy) (Nic,) int64
trzeciorzędowy Napinacz (Brak, 3) pływak32
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

protein_net/casp7 (domyślna konfiguracja)

  • Rozmiar pliku do pobrania : 3.18 GiB

  • Rozmiar zestawu danych : 2.53 GiB

  • Podziały :

Rozdzielać Przykłady
'test' 93
'train_100' 34557
'train_30' 10333
'train_50' 13024
'train_70' 15207
'train_90' 17611
'train_95' 17 938
'validation' 224

protein_net/casp8

  • Rozmiar pliku do pobrania : 4.96 GiB

  • Rozmiar zestawu danych : 3.55 GiB

  • Podziały :

Rozdzielać Przykłady
'test' 120
'train_100' 48087
'train_30' 13881
'train_50' 17 970
'train_70' 21191
'train_90' 24556
'train_95' 25035
'validation' 224

protein_net/casp9

  • Rozmiar pliku do pobrania : 6.65 GiB

  • Rozmiar zestawu danych : 4.54 GiB

  • Podziały :

Rozdzielać Przykłady
'test' 116
'train_100' 60350
'train_30' 16973
'train_50' 22172
'train_70' 26263
'train_90' 30513
'train_95' 31128
'validation' 224

protein_net/casp10

  • Rozmiar pliku do pobrania : 8.65 GiB

  • Rozmiar zestawu danych : 5.57 GiB

  • Podziały :

Rozdzielać Przykłady
'test' 95
'train_100' 73116
'train_30' 19495
'train_50' 25 897
'train_70' 31 001
'train_90' 36258
'train_95' 37033
'validation' 224

protein_net/casp11

  • Rozmiar pliku do pobrania : 10.81 GiB

  • Rozmiar zestawu danych : 6.72 GiB

  • Podziały :

Rozdzielać Przykłady
'test' 81
'train_100' 87573
'train_30' 22344
'train_50' 29 936
'train_70' 36 005
'train_90' 42507
'train_95' 43544
'validation' 224

protein_net/casp12

  • Rozmiar pliku do pobrania : 13.18 GiB

  • Rozmiar zestawu danych : 8.05 GiB

  • Podziały :

Rozdzielać Przykłady
'test' 40
'train_100' 104 059
'train_30' 25299
'train_50' 34039
'train_70' 41522
'train_90' 49600
'train_95' 50 914
'validation' 224