ogbg_molpcba

  • বর্ণনা :

'ogbg-molpcba' হল PubChem BioAssay থেকে নমুনাকৃত একটি আণবিক ডেটাসেট। এটি ওপেন গ্রাফ বেঞ্চমার্ক (OGB) থেকে একটি গ্রাফ পূর্বাভাস ডেটাসেট।

এই ডেটাসেটটি পরীক্ষামূলক, এবং API ভবিষ্যতের রিলিজে পরিবর্তন সাপেক্ষে।

ডেটাসেটের নীচের বিবরণটি OGB কাগজ থেকে অভিযোজিত হয়েছে:

ছক পূরণ করা

সমস্ত অণু RDKit ([1]) ব্যবহার করে প্রাক-প্রক্রিয়াজাত করা হয়।

  • প্রতিটি গ্রাফ একটি অণুর প্রতিনিধিত্ব করে, যেখানে নোডগুলি পরমাণু এবং প্রান্তগুলি রাসায়নিক বন্ধন।
  • ইনপুট নোডের বৈশিষ্ট্যগুলি হল 9-মাত্রিক, পারমাণবিক সংখ্যা এবং কাইরালিটি, সেইসাথে অন্যান্য অতিরিক্ত পরমাণুর বৈশিষ্ট্য যেমন আনুষ্ঠানিক চার্জ এবং পরমাণুটি রিংয়ে আছে কিনা।
  • ইনপুট প্রান্ত বৈশিষ্ট্য 3-মাত্রিক, বন্ডের ধরন, বন্ড স্টেরিওকেমিস্ট্রি, সেইসাথে একটি অতিরিক্ত বন্ড বৈশিষ্ট্য নির্দেশ করে যে বন্ডটি সংযুক্ত কিনা।

সমস্ত বৈশিষ্ট্যের সঠিক বিবরণ https://github.com/snap-stanford/ogb/blob/master/ogb/utils/features.py এ উপলব্ধ

ভবিষ্যদ্বাণী

কাজটি হল 128টি বিভিন্ন জৈবিক ক্রিয়াকলাপ (নিষ্ক্রিয়/সক্রিয়) ভবিষ্যদ্বাণী করা। এই লক্ষ্যগুলি সম্পর্কে আরও বর্ণনার জন্য [2] এবং [3] দেখুন। সমস্ত লক্ষ্য প্রতিটি অণুর জন্য প্রযোজ্য নয়: অনুপস্থিত লক্ষ্যগুলি NaN দ্বারা নির্দেশিত হয়।

তথ্যসূত্র

[১]: গ্রেগ ল্যান্ডরুম, এবং অন্যান্য। 'RDKit: ওপেন সোর্স কেমিনফরমেটিক্স'। URL: https://github.com/rdkit/rdkit

[২]: ভরথ রামসুন্দর, স্টিভেন কার্নেস, প্যাট্রিক রিলে, ডেল ওয়েবস্টার, ডেভিড কোনারডিং এবং বিজয় পান্ডে। 'ম্যাসিভলি মাল্টিটাস্ক নেটওয়ার্ক ফর ড্রাগ ডিসকভারি'। URL: https://arxiv.org/pdf/1502.02072.pdf

[৩]: ঝেনকিন উ, ভরথ রামসুন্দর, ইভান এন ফেইনবার্গ, জোসেফ গোমস, ক্যালেব জেনেসি, অনিশ এস পাপ্পু, কার্ল লেসউইং এবং বিজয় পান্ডে। মলিকিউলনেট: আণবিক মেশিন লার্নিংয়ের জন্য একটি মানদণ্ড। রাসায়নিক বিজ্ঞান, 9(2):513-530, 2018।

  • হোমপেজ : https://ogb.stanford.edu/docs/graphprop

  • সোর্স কোড : tfds.datasets.ogbg_molpcba.Builder

  • সংস্করণ :

    • 0.1.0 : পরীক্ষামূলক API-এর প্রাথমিক প্রকাশ।
    • 0.1.1 : প্রতিটি গ্রাফে প্রান্তের সংখ্যা স্পষ্টভাবে প্রকাশ করে।
    • 0.1.2 : GraphVisualizer-এর জন্য মেটাডেটা ক্ষেত্র যোগ করুন।
    • 0.1.3 (ডিফল্ট): পৃথক কাজের নামের জন্য মেটাডেটা ক্ষেত্র যোগ করুন।
  • ডাউনলোড সাইজ : 37.70 MiB

  • ডেটাসেটের আকার : 822.53 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'test' ৪৩,৭৯৩
'train' 350,343
'validation' ৪৩,৭৯৩
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'edge_feat': Tensor(shape=(None, 3), dtype=float32),
    'edge_index': Tensor(shape=(None, 2), dtype=int64),
    'labels': Tensor(shape=(128,), dtype=float32),
    'node_feat': Tensor(shape=(None, 9), dtype=float32),
    'num_edges': Tensor(shape=(None,), dtype=int64),
    'num_nodes': Tensor(shape=(None,), dtype=int64),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
edge_feat টেনসর (কোনটিই নয়, 3) float32
edge_index টেনসর (কোনটিই নয়, 2) int64
লেবেল টেনসর (128,) float32
node_feat টেনসর (কোনটি নয়, 9) float32
প্রান্ত_সংখ্যা টেনসর (কোনটিই নয়,) int64
সংখ্যা_নোড টেনসর (কোনটিই নয়,) int64

ভিজ্যুয়ালাইজেশন

  • উদ্ধৃতি :
@inproceedings{DBLP:conf/nips/HuFZDRLCL20,
  author    = {Weihua Hu and
               Matthias Fey and
               Marinka Zitnik and
               Yuxiao Dong and
               Hongyu Ren and
               Bowen Liu and
               Michele Catasta and
               Jure Leskovec},
  editor    = {Hugo Larochelle and
               Marc Aurelio Ranzato and
               Raia Hadsell and
               Maria{-}Florina Balcan and
               Hsuan{-}Tien Lin},
  title     = {Open Graph Benchmark: Datasets for Machine Learning on Graphs},
  booktitle = {Advances in Neural Information Processing Systems 33: Annual Conference
               on Neural Information Processing Systems 2020, NeurIPS 2020, December
               6-12, 2020, virtual},
  year      = {2020},
  url       = {https://proceedings.neurips.cc/paper/2020/hash/fb60d411a5c5b72b2e7d3527cfc84fd0-Abstract.html},
  timestamp = {Tue, 19 Jan 2021 15:57:06 +0100},
  biburl    = {https://dblp.org/rec/conf/nips/HuFZDRLCL20.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}