протеин_нет

Описание :

ProteinNet — это стандартизированный набор данных для машинного обучения структуры белка. Он предоставляет белковые последовательности, структуры (вторичные и третичные), множественные выравнивания последовательностей (MSA), позиционно-специфические оценочные матрицы (PSSM) и стандартизированные разделения обучения/валидации/тестирования. ProteinNet основывается на проводимых раз в два года оценках CASP, которые выполняют слепые прогнозы недавно решенных, но общедоступных белковых структур, чтобы предоставить тестовые наборы, которые раздвигают границы вычислительной методологии. Он организован в виде серии наборов данных, охватывающих CASP с 7 по 12 (охватывающих десятилетний период), чтобы обеспечить диапазон размеров наборов данных, которые позволяют оценивать новые методы в режимах с относительно бедными и богатыми данными.

Домашняя страница : https://github.com/aqlaboratory/proteinnet
Исходный код : tfds.datasets.protein_net.Builder
Версии :
- 1.0.0 (по умолчанию): Первоначальный выпуск.
Автоматическое кэширование ( документация ): Нет
Структура функции :

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'length': int32,
    'mask': Tensor(shape=(None,), dtype=bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=float32),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эволюционный	Тензор	(Нет, 21)	поплавок32
я бы	Текст		нить
длина	Тензор		int32
маска	Тензор	(Никто,)	логический
начальный	Последовательность (метка класса)	(Никто,)	int64
третичный	Тензор	(Нет, 3)	поплавок32

Контролируемые ключи (см . документ as_supervised ): ('primary', 'tertiary')
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :

@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

белок_net/casp7 (конфигурация по умолчанию)

Размер загрузки : 3.18 GiB
Размер набора данных : 2.53 GiB
Сплиты :

Расколоть	Примеры
`'test'`	93
`'train_100'`	34 557
`'train_30'`	10 333
`'train_50'`	13 024
`'train_70'`	15 207
`'train_90'`	17 611
`'train_95'`	17 938
`'validation'`	224

Примеры ( tfds.as_dataframe ):

протеин_нет/касп8

Размер загрузки : 4.96 GiB
Размер набора данных : 3.55 GiB
Сплиты :

Расколоть	Примеры
`'test'`	120
`'train_100'`	48 087
`'train_30'`	13 881
`'train_50'`	17 970
`'train_70'`	21 191
`'train_90'`	24 556
`'train_95'`	25 035
`'validation'`	224

Примеры ( tfds.as_dataframe ):

протеин_нет/касп9

Размер загрузки : 6.65 GiB
Размер набора данных : 4.54 GiB
Сплиты :

Расколоть	Примеры
`'test'`	116
`'train_100'`	60 350
`'train_30'`	16 973
`'train_50'`	22 172
`'train_70'`	26 263
`'train_90'`	30 513
`'train_95'`	31 128
`'validation'`	224

Примеры ( tfds.as_dataframe ):

протеин_нет/касп10

Размер загрузки : 8.65 GiB
Размер набора данных : 5.57 GiB
Сплиты :

Расколоть	Примеры
`'test'`	95
`'train_100'`	73 116
`'train_30'`	19 495
`'train_50'`	25 897
`'train_70'`	31 001
`'train_90'`	36 258
`'train_95'`	37 033
`'validation'`	224

Примеры ( tfds.as_dataframe ):

протеин_нет/касп11

Размер загрузки : 10.81 GiB
Размер набора данных : 6.72 GiB
Сплиты :

Расколоть	Примеры
`'test'`	81
`'train_100'`	87 573
`'train_30'`	22 344
`'train_50'`	29 936
`'train_70'`	36 005
`'train_90'`	42 507
`'train_95'`	43 544
`'validation'`	224

Примеры ( tfds.as_dataframe ):

протеин_нет/касп12

Размер загрузки : 13.18 GiB
Размер набора данных : 8.05 GiB
Сплиты :

Расколоть	Примеры
`'test'`	40
`'train_100'`	104 059
`'train_30'`	25 299
`'train_50'`	34 039
`'train_70'`	41 522
`'train_90'`	49 600
`'train_95'`	50 914
`'validation'`	224

Примеры ( tfds.as_dataframe ):

протеин_нет Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.