ogbg_molpcba

  • Mô tả:

'ogbg-molpcba' là tập dữ liệu phân tử được lấy mẫu từ PubChem BioAssay. Đây là tập dữ liệu dự đoán đồ thị từ Open Graph Benchmark (OGB).

Tập dữ liệu này là thử nghiệm và API có thể thay đổi trong các bản phát hành trong tương lai.

Mô tả dưới đây của tập dữ liệu được điều chỉnh từ bài báo của OGB:

Định dạng đầu vào

Tất cả các phân tử được xử lý trước bằng RDKit ([1]).

  • Mỗi đồ thị đại diện cho một phân tử, trong đó các nút là các nguyên tử và các cạnh là các liên kết hóa học.
  • Các tính năng của nút đầu vào là 9 chiều, chứa số nguyên tử và độ không đối xứng, cũng như các đặc điểm nguyên tử bổ sung khác như điện tích hình thức và liệu nguyên tử có ở trong vòng hay không.
  • Các tính năng cạnh đầu vào là 3 chiều, chứa loại liên kết, hóa học lập thể liên kết, cũng như một tính năng liên kết bổ sung cho biết liệu liên kết có liên hợp hay không.

Mô tả chính xác của tất cả các tính năng có sẵn tại https://github.com/snap-stanford/ogb/blob/master/ogb/utils/features.py

Sự dự đoán

Nhiệm vụ là dự đoán 128 hoạt động sinh học khác nhau (không hoạt động / hoạt động). Xem [2] và [3] để biết thêm mô tả về các mục tiêu này. Không phải tất cả các mục tiêu đều áp dụng cho mỗi phân tử: các mục tiêu bị thiếu được chỉ ra bởi NaN.

Người giới thiệu

[1]: Greg Landrum, et al. 'RDKit: Tin học hóa học nguồn mở'. URL: https://github.com/rdkit/rdkit

[2]: Bharath Ramsundar, Steven Kearnes, Patrick Riley, Dale Webster, David Konerding và Vijay Pande. 'Mạng đa nhiệm rộng rãi để khám phá ma túy'. URL: https://arxiv.org/pdf/1502.02072.pdf

[3]: Zhenqin Wu, Bharath Ramsundar, Evan N Feinberg, Joseph Gomes, Caleb Geniesse, Aneesh S. Pappu, Karl Leswing và Vijay Pande. MoleculeNet: một chuẩn mực cho học máy phân tử. Khoa học Hóa học, 9 (2): 513-530, 2018.

  • Trang chủ: https://ogb.stanford.edu/docs/graphprop

  • Source code: tfds.graphs.ogbg_molpcba.OgbgMolpcba

  • phiên bản:

    • 0.1.0 : Phiên bản đầu tiên của API thực nghiệm.
    • 0.1.1 : Phơi bày số cạnh trong mỗi đồ thị một cách rõ ràng.
    • 0.1.2 : Thêm lĩnh vực siêu dữ liệu cho GraphVisualizer.
    • 0.1.3 (mặc định) : Thêm lĩnh vực siêu dữ liệu cho tên các nhiệm vụ cá nhân.
  • Dung lượng tải về: 37.70 MiB

  • Dataset kích thước: 822.53 MiB

  • Tự động lưu trữ ( tài liệu ): Không

  • tách:

Tách ra Các ví dụ
'test' 43.793
'train' 350.343
'validation' 43.793
  • Các tính năng:
FeaturesDict({
    'edge_feat': Tensor(shape=(None, 3), dtype=tf.float32),
    'edge_index': Tensor(shape=(None, 2), dtype=tf.int64),
    'labels': Tensor(shape=(128,), dtype=tf.float32),
    'node_feat': Tensor(shape=(None, 9), dtype=tf.float32),
    'num_edges': Tensor(shape=(None,), dtype=tf.int64),
    'num_nodes': Tensor(shape=(None,), dtype=tf.int64),
})

Hình dung

  • Trích dẫn:
@inproceedings{DBLP:conf/nips/HuFZDRLCL20,
  author    = {Weihua Hu and
               Matthias Fey and
               Marinka Zitnik and
               Yuxiao Dong and
               Hongyu Ren and
               Bowen Liu and
               Michele Catasta and
               Jure Leskovec},
  editor    = {Hugo Larochelle and
               Marc Aurelio Ranzato and
               Raia Hadsell and
               Maria{-}Florina Balcan and
               Hsuan{-}Tien Lin},
  title     = {Open Graph Benchmark: Datasets for Machine Learning on Graphs},
  booktitle = {Advances in Neural Information Processing Systems 33: Annual Conference
               on Neural Information Processing Systems 2020, NeurIPS 2020, December
               6-12, 2020, virtual},
  year      = {2020},
  url       = {https://proceedings.neurips.cc/paper/2020/hash/fb60d411a5c5b72b2e7d3527cfc84fd0-Abstract.html},
  timestamp = {Tue, 19 Jan 2021 15:57:06 +0100},
  biburl    = {https://dblp.org/rec/conf/nips/HuFZDRLCL20.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}