protein_net

Mô tả :

ProteinNet là một bộ dữ liệu được tiêu chuẩn hóa để máy học cấu trúc protein. Nó cung cấp các trình tự protein, cấu trúc (thứ cấp và thứ ba), sắp xếp nhiều trình tự (MSA), ma trận tính điểm cụ thể theo vị trí (PSSM) và phân tách đào tạo/xác nhận/kiểm tra được tiêu chuẩn hóa. ProteinNet xây dựng dựa trên các đánh giá CASP hai năm một lần, thực hiện các dự đoán mù quáng về các cấu trúc protein đã được giải quyết gần đây nhưng không có sẵn công khai, để cung cấp các bộ thử nghiệm thúc đẩy các giới hạn của phương pháp tính toán. Nó được tổ chức dưới dạng một loạt các tập dữ liệu, kéo dài từ CASP 7 đến 12 (bao gồm khoảng thời gian 10 năm), để cung cấp một loạt các kích thước tập dữ liệu cho phép đánh giá các phương pháp mới trong chế độ dữ liệu tương đối nghèo và dữ liệu phong phú.

Trang chủ : https://github.com/aqlaboratory/proteinnet
Mã nguồn : tfds.datasets.protein_net.Builder
Phiên bản :
- 1.0.0 (mặc định): Bản phát hành đầu tiên.
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Cấu trúc tính năng :

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'length': int32,
    'mask': Tensor(shape=(None,), dtype=bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=float32),
})

Tài liệu tính năng :

Tính năng	Lớp	Hình dạng	Dtype
	Tính năngDict
tiến hóa	tenxơ	(Không có, 21)	phao32
Tôi	Chữ		sợi dây
chiều dài	tenxơ		int32
mặt nạ	tenxơ	(Không có,)	bool
sơ đẳng	Trình tự (Nhãn lớp)	(Không có,)	int64
cấp ba	tenxơ	(Không, 3)	phao32

Các khóa được giám sát (Xem as_supervised doc ): ('primary', 'tertiary')
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :

@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

protein_net/casp7 (cấu hình mặc định)

Kích thước tải xuống : 3.18 GiB
Kích thước tập dữ liệu : 2.53 GiB
Chia tách :

Tách ra	ví dụ
`'test'`	93
`'train_100'`	34,557
`'train_30'`	10,333
`'train_50'`	13,024
`'train_70'`	15,207
`'train_90'`	17,611
`'train_95'`	17,938
`'validation'`	224

Ví dụ ( tfds.as_dataframe ):

protein_net/casp8

Kích thước tải xuống : 4.96 GiB
Kích thước tập dữ liệu : 3.55 GiB
Chia tách :

Tách ra	ví dụ
`'test'`	120
`'train_100'`	48,087
`'train_30'`	13,881
`'train_50'`	17.970
`'train_70'`	21,191
`'train_90'`	24,556
`'train_95'`	25,035
`'validation'`	224

Ví dụ ( tfds.as_dataframe ):

protein_net/casp9

Kích thước tải xuống : 6.65 GiB
Kích thước tập dữ liệu : 4.54 GiB
Chia tách :

Tách ra	ví dụ
`'test'`	116
`'train_100'`	60.350
`'train_30'`	16,973
`'train_50'`	22,172
`'train_70'`	26,263
`'train_90'`	30,513
`'train_95'`	31,128
`'validation'`	224

Ví dụ ( tfds.as_dataframe ):

protein_net/casp10

Kích thước tải xuống : 8.65 GiB
Kích thước tập dữ liệu : 5.57 GiB
Chia tách :

Tách ra	ví dụ
`'test'`	95
`'train_100'`	73,116
`'train_30'`	19,495
`'train_50'`	25,897
`'train_70'`	31,001
`'train_90'`	36,258
`'train_95'`	37,033
`'validation'`	224

Ví dụ ( tfds.as_dataframe ):

protein_net/casp11

Kích thước tải xuống : 10.81 GiB
Kích thước tập dữ liệu : 6.72 GiB
Chia tách :

Tách ra	ví dụ
`'test'`	81
`'train_100'`	87,573
`'train_30'`	22,344
`'train_50'`	29,936
`'train_70'`	36,005
`'train_90'`	42,507
`'train_95'`	43,544
`'validation'`	224

Ví dụ ( tfds.as_dataframe ):

protein_net/casp12

Kích thước tải xuống : 13.18 GiB
Kích thước tập dữ liệu : 8.05 GiB
Chia tách :

Tách ra	ví dụ
`'test'`	40
`'train_100'`	104,059
`'train_30'`	25,299
`'train_50'`	34,039
`'train_70'`	41,522
`'train_90'`	49.600
`'train_95'`	50,914
`'validation'`	224

Ví dụ ( tfds.as_dataframe ):