białko_sieć

opis :

ProteinNet to znormalizowany zestaw danych do uczenia maszynowego struktury białek. Zapewnia sekwencje białek, struktury (drugorzędowe i trzeciorzędowe), dopasowania wielu sekwencji (MSA), macierze punktacji specyficzne dla pozycji (PSSM) oraz standaryzowane podziały treningu / walidacji / testu. ProteinNet opiera się na przeprowadzanych co dwa lata ocenach CASP, które przeprowadzają ślepe prognozy niedawno rozwiązanych, ale publicznie niedostępnych struktur białek, aby zapewnić zestawy testów, które przesuwają granice metodologii obliczeniowej. Jest zorganizowana jako seria zestawów danych, obejmująca CASP 7 do 12 (obejmujących okres dziesięciu lat), aby zapewnić zakres rozmiarów zestawów danych, które umożliwiają ocenę nowych metod w systemach stosunkowo ubogich w dane i bogatych w dane.

Strona główna : https://github.com/aqlaboratory/proteinnet
Kod źródłowy : tfds.datasets.protein_net.Builder
Wersje :
- 1.0.0 (domyślnie): Wersja początkowa.
Automatyczne buforowanie ( dokumentacja ): Nie
Struktura funkcji :

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'length': int32,
    'mask': Tensor(shape=(None,), dtype=bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=float32),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształt	Typ D
	FunkcjeDict
ewolucyjny	Napinacz	(Brak, 21)	pływak32
ID	Tekst		strunowy
długość	Napinacz		int32
maska	Napinacz	(Nic,)	bool
podstawowy	Sekwencja (etykieta klasy)	(Nic,)	int64
trzeciorzędowy	Napinacz	(Brak, 3)	pływak32

Klucze nadzorowane (zobacz dokument as_supervised ): ('primary', 'tertiary')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :

@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

protein_net/casp7 (domyślna konfiguracja)

Rozmiar pliku do pobrania : 3.18 GiB
Rozmiar zestawu danych : 2.53 GiB
Podziały :

Rozdzielać	Przykłady
`'test'`	93
`'train_100'`	34557
`'train_30'`	10333
`'train_50'`	13024
`'train_70'`	15207
`'train_90'`	17611
`'train_95'`	17 938
`'validation'`	224

Przykłady ( tfds.as_dataframe ):

protein_net/casp8

Rozmiar pliku do pobrania : 4.96 GiB
Rozmiar zestawu danych : 3.55 GiB
Podziały :

Rozdzielać	Przykłady
`'test'`	120
`'train_100'`	48087
`'train_30'`	13881
`'train_50'`	17 970
`'train_70'`	21191
`'train_90'`	24556
`'train_95'`	25035
`'validation'`	224

Przykłady ( tfds.as_dataframe ):

protein_net/casp9

Rozmiar pliku do pobrania : 6.65 GiB
Rozmiar zestawu danych : 4.54 GiB
Podziały :

Rozdzielać	Przykłady
`'test'`	116
`'train_100'`	60350
`'train_30'`	16973
`'train_50'`	22172
`'train_70'`	26263
`'train_90'`	30513
`'train_95'`	31128
`'validation'`	224

Przykłady ( tfds.as_dataframe ):

protein_net/casp10

Rozmiar pliku do pobrania : 8.65 GiB
Rozmiar zestawu danych : 5.57 GiB
Podziały :

Rozdzielać	Przykłady
`'test'`	95
`'train_100'`	73116
`'train_30'`	19495
`'train_50'`	25 897
`'train_70'`	31 001
`'train_90'`	36258
`'train_95'`	37033
`'validation'`	224

Przykłady ( tfds.as_dataframe ):

protein_net/casp11

Rozmiar pliku do pobrania : 10.81 GiB
Rozmiar zestawu danych : 6.72 GiB
Podziały :

Rozdzielać	Przykłady
`'test'`	81
`'train_100'`	87573
`'train_30'`	22344
`'train_50'`	29 936
`'train_70'`	36 005
`'train_90'`	42507
`'train_95'`	43544
`'validation'`	224

Przykłady ( tfds.as_dataframe ):

protein_net/casp12

Rozmiar pliku do pobrania : 13.18 GiB
Rozmiar zestawu danych : 8.05 GiB
Podziały :

Rozdzielać	Przykłady
`'test'`	40
`'train_100'`	104 059
`'train_30'`	25299
`'train_50'`	34039
`'train_70'`	41522
`'train_90'`	49600
`'train_95'`	50 914
`'validation'`	224

Przykłady ( tfds.as_dataframe ):