- বর্ণনা :
Corr2cause
কার্যকারণ অনুমান মানুষের বুদ্ধিমত্তার অন্যতম বৈশিষ্ট্য।
Corr2cause হল 400K নমুনার একটি বৃহৎ মাপের ডেটাসেট, যার ভিত্তিতে সতেরটি বিদ্যমান এলএলএম সম্পর্কিত কাগজে মূল্যায়ন করা হয়েছে।
সামগ্রিকভাবে, Corr2cause 415,944টি নমুনা রয়েছে, যার মধ্যে 18.57% বৈধ নমুনা রয়েছে। প্রিমাইজের গড় দৈর্ঘ্য হল 424.11 টোকেন, এবং হাইপোথিসিস 10.83 টোকেন। তথ্য যথাক্রমে 411,452 প্রশিক্ষণ নমুনা, 2,246 উন্নয়ন এবং পরীক্ষার নমুনায় বিভক্ত করা হয়েছে। যেহেতু ডেটাসেটের মূল উদ্দেশ্য হল LLM-এর কর্মক্ষমতা বেঞ্চমার্ক করা, তাই পরীক্ষা এবং ডেভেলপমেন্ট সেটগুলিকে অগ্রাধিকার দেওয়া হয়েছে যাতে সমস্ত আকারের গ্রাফগুলির উপর একটি ব্যাপক কভারেজ থাকে৷
সোর্স কোড :
tfds.datasets.corr2cause.Builder
সংস্করণ :
-
1.0.0
(ডিফল্ট): প্রাথমিক প্রকাশ।
-
ডাউনলোড সাইজ :
727.22 MiB
ডেটাসেটের আকার :
739.91 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'dev' | 2,246 |
'test' | 2,246 |
'train' | 411,452 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'input': Text(shape=(), dtype=string),
'label': int64,
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
ইনপুট | পাঠ্য | স্ট্রিং | ||
লেবেল | টেনসর | int64 |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@misc{jin2023large,
title={Can Large Language Models Infer Causation from Correlation?},
author={Zhijing Jin and Jiarui Liu and Zhiheng Lyu and Spencer Poff and Mrinmaya Sachan and Rada Mihalcea and Mona Diab and Bernhard Schölkopf},
year={2023},
eprint={2306.05836},
archivePrefix={arXiv},
primaryClass={cs.CL}
}