- বর্ণনা :
BEIR হল একটি ভিন্নধর্মী বেঞ্চমার্ক যাতে বিভিন্ন IR কাজ থাকে। এটি বেঞ্চমার্কের মধ্যে আপনার NLP-ভিত্তিক পুনরুদ্ধার মডেলগুলির মূল্যায়নের জন্য একটি সাধারণ এবং সহজ কাঠামো প্রদান করে।
হোমপেজ : https://github.com/beir-cellar/beir
সোর্স কোড :
tfds.datasets.beir.Builder
সংস্করণ :
-
1.0.0
(ডিফল্ট): প্রাথমিক প্রকাশ।
-
বৈশিষ্ট্য গঠন :
FeaturesDict({
'passage': Text(shape=(), dtype=string),
'passage_id': Text(shape=(), dtype=string),
'passage_metadata': Text(shape=(), dtype=string),
'query': Text(shape=(), dtype=string),
'query_id': Text(shape=(), dtype=string),
'query_metadata': Text(shape=(), dtype=string),
'score': float32,
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
উত্তরণ | পাঠ্য | স্ট্রিং | ||
passage_id | পাঠ্য | স্ট্রিং | ||
উত্তরণ_মেটাডেটা | পাঠ্য | স্ট্রিং | ||
প্রশ্ন | পাঠ্য | স্ট্রিং | ||
query_id | পাঠ্য | স্ট্রিং | ||
query_metadata | পাঠ্য | স্ট্রিং | ||
স্কোর | টেনসর | float32 |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@inproceedings{
thakur2021beir,
title={ {BEIR}: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models},
author={Nandan Thakur and Nils Reimers and Andreas R{"u}ckl{'e} and Abhishek Srivastava and Iryna Gurevych},
booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)},
year={2021},
url={https://openreview.net/forum?id=wCu6T5xFjeJ}
}
beir/msmarco (ডিফল্ট কনফিগারেশন)
ডাউনলোড সাইজ :
1.01 GiB
ডেটাসেটের আকার :
4.53 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'passage' | ৮,৮৪১,৮২৩ |
'query' | 509,962 |
'test' | ৯,১৩৯ |
'train' | 516,472 |
'validation' | 7,433 |
- উদাহরণ ( tfds.as_dataframe ):
beir/trec_covid
ডাউনলোড সাইজ :
70.45 MiB
ডেটাসেটের আকার :
292.04 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'passage' | 171,332 |
'query' | 50 |
'test' | 35,480 |
- উদাহরণ ( tfds.as_dataframe ):
beir/nfcorpus
ডাউনলোড সাইজ :
2.34 MiB
ডেটাসেটের আকার :
24.94 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'passage' | ৩,৬৩৩ |
'query' | 3,237 |
'test' | 3,128 |
'train' | 3,588 |
'validation' | 3,119 |
- উদাহরণ ( tfds.as_dataframe ):
beir/nq
ডাউনলোড
475.22 MiB
ডেটাসেটের আকার :
1.66 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'passage' | 2,681,468 |
'query' | ৩,৪৫২ |
'test' | 4,201 |
- উদাহরণ ( tfds.as_dataframe ):
beir/hotpotqa
ডাউনলোড সাইজ :
623.73 MiB
ডেটাসেটের আকার :
2.64 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'passage' | 5,233,329 |
'query' | 97,852 |
'test' | 13,783 |
'train' | 101,307 |
'validation' | 10,335 |
- উদাহরণ ( tfds.as_dataframe ):
বিয়ার/ফিকা
ডাউনলোড সাইজ :
17.12 MiB
ডেটাসেটের আকার :
73.39 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'passage' | 57,638 |
'query' | ৬,৬৪৮ |
'test' | 1,706 |
'train' | 14,166 |
'validation' | 1,238 |
- উদাহরণ ( tfds.as_dataframe ):
বিয়ার/আরগুয়ানা
ডাউনলোডের আকার :
3.60 MiB
ডেটাসেটের আকার :
15.08 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'passage' | ৮,৬৭৪ |
'query' | 1,406 |
'test' | 1,401 |
- উদাহরণ ( tfds.as_dataframe ):
beir/webis_touche2020
ডাউনলোড সাইজ :
216.61 MiB
ডেটাসেটের আকার :
747.57 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'passage' | 382,545 |
'query' | 49 |
'test' | 2,099 |
- উদাহরণ ( tfds.as_dataframe ):
beir/cqadupstack.android
ডাউনলোড সাইজ :
4.98 GiB
ডেটাসেটের আকার :
883.49 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'passage' | 22,998 |
'query' | 699 |
'test' | 1,696 |
- উদাহরণ ( tfds.as_dataframe ):
beir/cqadupstack.english
ডাউনলোড সাইজ :
4.98 GiB
ডেটাসেটের আকার :
3.78 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'passage' | 40,221 |
'query' | 1,570 |
'test' | 3,765 |
- উদাহরণ ( tfds.as_dataframe ):
beir/cqadupstack.gaming
ডাউনলোড সাইজ :
4.98 GiB
ডেটাসেটের আকার :
2.64 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'passage' | 45,301 |
'query' | 1,595 |
'test' | 2,263 |
- উদাহরণ ( tfds.as_dataframe ):
beir/cqadupstack.gis
ডাউনলোড সাইজ :
4.98 GiB
ডেটাসেটের আকার :
1.47 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'passage' | 37,637 |
'query' | 885 |
'test' | 1,114 |
- উদাহরণ ( tfds.as_dataframe ):
beir/cqadupstack.mathematica
ডাউনলোড সাইজ :
4.98 GiB
ডেটাসেটের আকার :
1.58 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'passage' | 16,705 |
'query' | 804 |
'test' | 1,358 |
- উদাহরণ ( tfds.as_dataframe ):
beir/cqadupstack.physics
ডাউনলোড সাইজ :
4.98 GiB
ডেটাসেটের আকার :
2.02 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'passage' | 38,316 |
'query' | 1,039 |
'test' | 1,933 |
- উদাহরণ ( tfds.as_dataframe ):
beir/cqadupstack.programmers
ডাউনলোড সাইজ :
4.98 GiB
ডেটাসেটের আকার :
2.14 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'passage' | 32,176 |
'query' | 876 |
'test' | 1,675 |
- উদাহরণ ( tfds.as_dataframe ):
beir/cqadupstack.stats
ডাউনলোড সাইজ :
4.98 GiB
ডেটাসেটের আকার :
941.07 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'passage' | 42,269 |
'query' | 652 |
'test' | 913 |
- উদাহরণ ( tfds.as_dataframe ):
beir/cqadupstack.tex
ডাউনলোড সাইজ :
4.98 GiB
ডেটাসেটের আকার :
21.75 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'passage' | 68,184 |
'query' | 2,906 |
'test' | 5,154 |
- উদাহরণ ( tfds.as_dataframe ):
beir/cqadupstack.unix
ডাউনলোড সাইজ :
4.98 GiB
ডেটাসেটের আকার :
2.04 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'passage' | 47,382 |
'query' | 1,072 |
'test' | 1,693 |
- উদাহরণ ( tfds.as_dataframe ):
beir/cqadupstack.webmasters
ডাউনলোড সাইজ :
4.98 GiB
ডেটাসেটের আকার :
650.08 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'passage' | 17,405 |
'query' | 506 |
'test' | 1,395 |
- উদাহরণ ( tfds.as_dataframe ):
beir/cqadupstack.wordpress
ডাউনলোড সাইজ :
4.98 GiB
ডেটাসেটের আকার :
726.15 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'passage' | 48,605 |
'query' | 541 |
'test' | 744 |
- উদাহরণ ( tfds.as_dataframe ):
বিয়ার/কোরা
ডাউনলোড সাইজ :
15.12 MiB
ডেটাসেটের আকার :
121.33 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'passage' | 522,931 |
'query' | 15,000 |
'test' | 15,675 |
'validation' | 7,626 |
- উদাহরণ ( tfds.as_dataframe ):
beir/dbpedia_entity
ডাউনলোডের আকার :
609.67 MiB
ডেটাসেটের আকার :
2.47 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'passage' | 4,635,922 |
'query' | 467 |
'test' | 40,724 |
'validation' | ৫,৬৫৮ |
- উদাহরণ ( tfds.as_dataframe ):
বিয়ার/স্কিডোক্স
ডাউনলোড আকার :
135.87 MiB
ডেটাসেটের আকার :
573.04 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'passage' | 25,657 |
'query' | 1,000 |
'test' | 25,657 |
- উদাহরণ ( tfds.as_dataframe ):
বিয়ার/জ্বর
ডাউনলোড সাইজ :
1.15 GiB
ডেটাসেটের আকার :
3.70 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'passage' | ৫,৪১৬,৫৬৮ |
'query' | 123,142 |
'test' | 1,499 |
'train' | 12,547 |
'validation' | 1,460 |
- উদাহরণ ( tfds.as_dataframe ):
বিয়ার/জলবায়ু_জ্বর
ডাউনলোড সাইজ :
1.14 GiB
ডেটাসেটের আকার :
3.64 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'passage' | ৫,৪১৬,৫৯৩ |
'query' | 1,535 |
'test' | 1,344 |
- উদাহরণ ( tfds.as_dataframe ):
beir/sifact
ডাউনলোডের আকার :
2.69 MiB
ডেটাসেটের আকার :
10.16 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'passage' | 5,183 |
'query' | 1,109 |
'test' | 283 |
'train' | 565 |
- উদাহরণ ( tfds.as_dataframe ):