protein_net

  • Mô tả:

ProteinNet là một bộ dữ liệu chuẩn hóa cho việc học máy về cấu trúc protein. Nó cung cấp trình tự protein, cấu trúc (thứ cấp và thứ ba), nhiều liên kết trình tự (MSA), ma trận tính điểm theo vị trí cụ thể (PSSM) và đào tạo / xác nhận / phân tách thử nghiệm được tiêu chuẩn hóa. ProteinNet xây dựng dựa trên các đánh giá CASP hai năm một lần, thực hiện các dự đoán mù mờ về các cấu trúc protein đã được giải quyết gần đây nhưng chưa được công bố công khai, để cung cấp các bộ thử nghiệm thúc đẩy giới hạn của phương pháp tính toán. Nó được tổ chức như một loạt các tập dữ liệu, trải dài từ CASP 7 đến 12 (trong khoảng thời gian 10 năm), để cung cấp một loạt các kích thước tập dữ liệu cho phép đánh giá các phương pháp mới trong các chế độ dữ liệu tương đối nghèo và giàu dữ liệu.

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=tf.float32),
    'id': Text(shape=(), dtype=tf.string),
    'length': tf.int32,
    'mask': Tensor(shape=(None,), dtype=tf.bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=tf.float32),
})
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

protein_net / casp7 (cấu hình mặc định)

  • Dung lượng tải về: 3.18 GiB

  • Kích thước tập dữ liệu: 2.53 GiB

  • tách:

Tách ra Các ví dụ
'test' 93
'train_100' 34.557
'train_30' 10,333
'train_50' 13.024
'train_70' 15,207
'train_90' 17.611
'train_95' 17,938
'validation' 224

protein_net / casp8

  • Dung lượng tải về: 4.96 GiB

  • Kích thước tập dữ liệu: 3.55 GiB

  • tách:

Tách ra Các ví dụ
'test' 120
'train_100' 48.087
'train_30' 13.881
'train_50' 17,970
'train_70' 21.191
'train_90' 24.556
'train_95' 25.035
'validation' 224

protein_net / casp9

  • Dung lượng tải về: 6.65 GiB

  • Kích thước tập dữ liệu: 4.54 GiB

  • tách:

Tách ra Các ví dụ
'test' 116
'train_100' 60.350
'train_30' 16,973
'train_50' 22.172
'train_70' 26.263
'train_90' 30.513
'train_95' 31.128
'validation' 224

protein_net / casp10

  • Dung lượng tải về: 8.65 GiB

  • Kích thước tập dữ liệu: 5.57 GiB

  • tách:

Tách ra Các ví dụ
'test' 95
'train_100' 73.116
'train_30' 19.495
'train_50' 25.897
'train_70' 31.001
'train_90' 36.258
'train_95' 37.033
'validation' 224

protein_net / casp11

  • Dung lượng tải về: 10.81 GiB

  • Kích thước tập dữ liệu: 6.72 GiB

  • tách:

Tách ra Các ví dụ
'test' 81
'train_100' 87.573
'train_30' 22.344
'train_50' 29.936
'train_70' 36.005
'train_90' 42.507
'train_95' 43.544
'validation' 224

protein_net / casp12

  • Dung lượng tải về: 13.18 GiB

  • Kích thước tập dữ liệu: 8.05 GiB

  • tách:

Tách ra Các ví dụ
'test' 40
'train_100' 104.059
'train_30' 25.299
'train_50' 34.039
'train_70' 41.522
'train_90' 49.600
'train_95' 50,914
'validation' 224