qm9

توضیحات :

QM9 شامل خواص هندسی، انرژی، الکترونیکی و ترمودینامیکی محاسبه‌شده برای 134k مولکول آلی کوچک پایدار است که از C، H، O، N و F تشکیل شده‌اند. طبق معمول، ما مولکول‌های مشخص‌نشده را حذف می‌کنیم و 130831 باقیمانده را ارائه می‌کنیم.

صفحه اصلی : https://doi.org/10.6084/m9.figshare.c.978904.v5
کد منبع : tfds.datasets.qm9.Builder
نسخه ها :
- 1.0.0 (پیش فرض): انتشار اولیه.
حجم دانلود : 82.62 MiB
حجم مجموعه داده : 177.16 MiB
ساختار ویژگی :

FeaturesDict({
    'A': float32,
    'B': float32,
    'C': float32,
    'Cv': float32,
    'G': float32,
    'G_atomization': float32,
    'H': float32,
    'H_atomization': float32,
    'InChI': string,
    'InChI_relaxed': string,
    'Mulliken_charges': Tensor(shape=(29,), dtype=float32),
    'SMILES': string,
    'SMILES_relaxed': string,
    'U': float32,
    'U0': float32,
    'U0_atomization': float32,
    'U_atomization': float32,
    'alpha': float32,
    'charges': Tensor(shape=(29,), dtype=int64),
    'frequencies': Tensor(shape=(None,), dtype=float32),
    'gap': float32,
    'homo': float32,
    'index': int64,
    'lumo': float32,
    'mu': float32,
    'num_atoms': int64,
    'positions': Tensor(shape=(29, 3), dtype=float32),
    'r2': float32,
    'tag': string,
    'zpve': float32,
})

مستندات ویژگی :

ویژگی	کلاس	شکل	نوع D
	FeaturesDict
الف	تانسور		float32
ب	تانسور		float32
سی	تانسور		float32
Cv	تانسور		float32
جی	تانسور		float32
G_atomization	تانسور		float32
اچ	تانسور		float32
H_اتمیزه کردن	تانسور		float32
InChI	تانسور		رشته
InChI_relaxed	تانسور		رشته
Mulliken_charges	تانسور	(29،)	float32
لبخند می زند	تانسور		رشته
SMILES_relaked	تانسور		رشته
U	تانسور		float32
U0	تانسور		float32
U0_atomization	تانسور		float32
U_atomization	تانسور		float32
آلفا	تانسور		float32
اتهامات	تانسور	(29،)	int64
فرکانس ها	تانسور	(هیچ،)	float32
شکاف	تانسور		float32
همو	تانسور		float32
شاخص	تانسور		int64
لومو	تانسور		float32
مو	تانسور		float32
num_atoms	تانسور		int64
موقعیت ها	تانسور	(29، 3)	float32
r2	تانسور		float32
برچسب زدن	تانسور		رشته
zpve	تانسور		float32

کلیدهای نظارت شده (به as_supervised doc مراجعه کنید): None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :

@article{ramakrishnan2014quantum,
  title={Quantum chemistry structures and properties of 134 kilo molecules},
  author={Ramakrishnan, Raghunathan and Dral, Pavlo O and Rupp, Matthias and von Lilienfeld, O Anatole},
  journal={Scientific Data},
  volume={1},
  year={2014},
  publisher={Nature Publishing Group}
}

qm9/original (پیکربندی پیش فرض)

توضیحات پیکربندی : QM9 هیچ گونه تقسیمی را تعریف نمی کند. بنابراین این نوع مجموعه داده کامل QM9 را در تقسیم قطار، به ترتیب اصلی (بدون درهم ریختن) قرار می دهد.
ذخیره خودکار ( مستندات ): فقط زمانی که shuffle_files=False (قطار)
تقسیم ها :

تقسیم کنید	نمونه ها
`'train'`	130,831

مثال‌ها ( tfds.as_dataframe ):

qm9/باکلان

توضیحات پیکربندی : تقسیم مجموعه داده توسط Cormorant استفاده می شود. 100000 قطار، 17748 اعتبارسنجی و 13083 نمونه آزمایشی. شکافتن پس از مخلوط کردن با دانه 0 اتفاق می افتد. مقاله: https://arxiv.org/abs/1906.04015 تقسیم: https://github.com/risilab/cormorant/blob/master/src/cormorant/data/prepare/qm9.py
ذخیره خودکار ( مستندات ): بله (تست، اعتبارسنجی)، فقط زمانی که shuffle_files=False (قطار)
تقسیم ها :

تقسیم کنید	نمونه ها
`'test'`	13,083
`'train'`	100000
`'validation'`	17748

مثال‌ها ( tfds.as_dataframe ):

qm9/dimenet

توضیحات پیکربندی : تقسیم مجموعه داده توسط DimeNet استفاده می شود. 110000 قطار، 10000 اعتبارسنجی و 10831 نمونه آزمایشی. شکافتن پس از مخلوط کردن با دانه 42 اتفاق می افتد. مقاله: https://arxiv.org/abs/2003.03123 تقسیم: https://github.com/gasteigerjo/dimenet/blob/master/dimenet/training/data_provider.py
ذخیره خودکار ( مستندات ): بله (تست، اعتبارسنجی)، فقط زمانی که shuffle_files=False (قطار)
تقسیم ها :

تقسیم کنید	نمونه ها
`'test'`	10,831
`'train'`	110000
`'validation'`	10000

مثال‌ها ( tfds.as_dataframe ):

qm9 با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.

qm9/original (پیکربندی پیش فرض)

qm9/باکلان

qm9/dimenet

qm9