- বর্ণনা :
GLUE, সাধারণ ভাষা বোঝার মূল্যায়ন বেঞ্চমার্ক ( https://gluebenchmark.com/ ) হল প্রাকৃতিক ভাষা বোঝার সিস্টেমের প্রশিক্ষণ, মূল্যায়ন এবং বিশ্লেষণের জন্য সম্পদের একটি সংগ্রহ।
সোর্স কোড :
tfds.text.Glue
সংস্করণ :
-
1.0.0
: নতুন স্প্লিট API ( https://tensorflow.org/datasets/splits ) -
1.0.1
: মৃত URL লিঙ্ক আপডেট করুন। -
2.0.0
(ডিফল্ট): Glue/qqp এর জন্য ডেটা সোর্স আপডেট করুন।
-
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
আঠা/কোলা (ডিফল্ট কনফিগারেশন)
কনফিগার বিবরণ : ভাষাগত গ্রহণযোগ্যতার কর্পাস ভাষাগত তত্ত্বের উপর বই এবং জার্নাল নিবন্ধ থেকে আঁকা ইংরেজি গ্রহণযোগ্যতা বিচার নিয়ে গঠিত। প্রতিটি উদাহরণ হল ব্যাকরণগত ইংরেজি বাক্য কিনা তা দিয়ে টীকা করা শব্দের একটি ক্রম।
হোমপেজ : https://nyu-mll.github.io/CoLA/
ডাউনলোড সাইজ :
368.14 KiB
ডেটাসেটের আকার :
965.49 KiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 1,063 |
'train' | ৮,৫৫১ |
'validation' | 1,043 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
idx | টেনসর | int32 | ||
লেবেল | ক্লাসলেবেল | int64 | ||
বাক্য | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@article{warstadt2018neural,
title={Neural Network Acceptability Judgments},
author={Warstadt, Alex and Singh, Amanpreet and Bowman, Samuel R},
journal={arXiv preprint arXiv:1805.12471},
year={2018}
}
@inproceedings{wang2019glue,
title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
note={In the Proceedings of ICLR.},
year={2019}
}
Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.
glue/sst2
কনফিগারেশনের বিবরণ : স্ট্যানফোর্ড সেন্টিমেন্ট ট্রিব্যাঙ্ক সিনেমা পর্যালোচনা এবং তাদের অনুভূতির মানব টীকা থেকে বাক্য নিয়ে গঠিত। কাজটি একটি প্রদত্ত বাক্যের অনুভূতির পূর্বাভাস দেওয়া। আমরা দ্বি-মুখী (ধনাত্মক/নেতিবাচক) শ্রেণী বিভাজন ব্যবহার করি এবং শুধুমাত্র বাক্য-স্তরের লেবেল ব্যবহার করি।
ডাউনলোড
7.09 MiB
ডেটাসেটের আকার :
7.22 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 1,821 |
'train' | ৬৭,৩৪৯ |
'validation' | 872 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
idx | টেনসর | int32 | ||
লেবেল | ক্লাসলেবেল | int64 | ||
বাক্য | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{socher2013recursive,
title={Recursive deep models for semantic compositionality over a sentiment treebank},
author={Socher, Richard and Perelygin, Alex and Wu, Jean and Chuang, Jason and Manning, Christopher D and Ng, Andrew and Potts, Christopher},
booktitle={Proceedings of the 2013 conference on empirical methods in natural language processing},
pages={1631--1642},
year={2013}
}
@inproceedings{wang2019glue,
title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
note={In the Proceedings of ICLR.},
year={2019}
}
Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.
আঠালো/এমআরপিসি
কনফিগারেশনের বিবরণ : মাইক্রোসফ্ট রিসার্চ প্যারাফ্রেজ কর্পাস (ডোলান এবং ব্রোকেট, 2005) বাক্য জোড়ার একটি কর্পাস যা অনলাইন সংবাদ উত্স থেকে স্বয়ংক্রিয়ভাবে বের করা হয়, এই জোড়ার বাক্যগুলি শব্দার্থগতভাবে সমতুল্য কিনা তার জন্য মানুষের টীকা সহ।
হোমপেজ : https://www.microsoft.com/en-us/download/details.aspx?id=52398
ডাউনলোড সাইজ :
1.43 MiB
ডেটাসেটের আকার :
1.74 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 1,725 |
'train' | ৩,৬৬৮ |
'validation' | 408 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
idx | টেনসর | int32 | ||
লেবেল | ক্লাসলেবেল | int64 | ||
বাক্য1 | পাঠ্য | স্ট্রিং | ||
বাক্য2 | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{dolan2005automatically,
title={Automatically constructing a corpus of sentential paraphrases},
author={Dolan, William B and Brockett, Chris},
booktitle={Proceedings of the Third International Workshop on Paraphrasing (IWP2005)},
year={2005}
}
@inproceedings{wang2019glue,
title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
note={In the Proceedings of ICLR.},
year={2019}
}
Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.
আঠালো/qqp
কনফিগারেশনের বিবরণ : Quora Question Pairs2 ডেটাসেট হল সম্প্রদায়ের প্রশ্ন-উত্তর প্রদানকারী ওয়েবসাইট Quora থেকে প্রশ্ন জোড়ার একটি সংগ্রহ। কাজটি হল একজোড়া প্রশ্ন শব্দার্থগতভাবে সমতুল্য কিনা তা নির্ধারণ করা।
হোমপেজ : https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs
ডাউনলোড আকার :
39.76 MiB
ডেটাসেটের আকার :
150.37 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 390,965 |
'train' | 363,846 |
'validation' | 40,430 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'question1': Text(shape=(), dtype=string),
'question2': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
idx | টেনসর | int32 | ||
লেবেল | ক্লাসলেবেল | int64 | ||
প্রশ্ন 1 | পাঠ্য | স্ট্রিং | ||
প্রশ্ন2 | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@online{WinNT,
author = {Iyer, Shankar and Dandekar, Nikhil and Csernai, Kornel},
title = {First Quora Dataset Release: Question Pairs},
year = 2017,
url = {https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs},
urldate = {2019-04-03}
}
@inproceedings{wang2019glue,
title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
note={In the Proceedings of ICLR.},
year={2019}
}
Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.
আঠা/stsb
কনফিগারেশনের বিবরণ : শব্দার্থক টেক্সচুয়াল সিমিলারিটি বেঞ্চমার্ক (Cer et al., 2017) হল খবরের শিরোনাম, ভিডিও এবং ছবির ক্যাপশন এবং প্রাকৃতিক ভাষা অনুমান ডেটা থেকে আঁকা বাক্য জোড়ার একটি সংগ্রহ৷ প্রতিটি জোড়া 0 থেকে 5 পর্যন্ত একটি মিল স্কোর সহ মানব-টীকাযুক্ত।
হোমপেজ : http://ixa2.si.ehu.es/stswiki/index.php/STSbenchmark
ডাউনলোড
784.05 KiB
ডেটাসেটের আকার :
1.58 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 1,379 |
'train' | ৫,৭৪৯ |
'validation' | 1,500 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'idx': int32,
'label': float32,
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
idx | টেনসর | int32 | ||
লেবেল | টেনসর | float32 | ||
বাক্য1 | পাঠ্য | স্ট্রিং | ||
বাক্য2 | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@article{cer2017semeval,
title={Semeval-2017 task 1: Semantic textual similarity-multilingual and cross-lingual focused evaluation},
author={Cer, Daniel and Diab, Mona and Agirre, Eneko and Lopez-Gazpio, Inigo and Specia, Lucia},
journal={arXiv preprint arXiv:1708.00055},
year={2017}
}
@inproceedings{wang2019glue,
title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
note={In the Proceedings of ICLR.},
year={2019}
}
Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.
আঠা/mnli
কনফিগারেশনের বিবরণ : মাল্টি-জেনার ন্যাচারাল ল্যাঙ্গুয়েজ ইনফারেন্স কর্পাস হল পাঠ্য এনটেলমেন্ট টীকা সহ বাক্য জোড়ার একটি ক্রাউডসোর্স সংগ্রহ। একটি প্রাথমিক বাক্য এবং একটি অনুমান বাক্য দেওয়া হলে, কাজটি হল পূর্বাভাস দেওয়া যে প্রিমিসটি অনুমানকে (এনটেইলমেন্ট) অন্তর্ভুক্ত করে, অনুমানের সাথে দ্বন্দ্ব (বিরোধিতা) না হয় (নিরপেক্ষ)। প্রতিলিপিকৃত বক্তৃতা, কথাসাহিত্য এবং সরকারি প্রতিবেদন সহ দশটি ভিন্ন উৎস থেকে প্রাথমিক বাক্য সংগ্রহ করা হয়েছে। আমরা স্ট্যান্ডার্ড টেস্ট সেট ব্যবহার করি, যার জন্য আমরা লেখকদের কাছ থেকে ব্যক্তিগত লেবেল পেয়েছি এবং মিলে যাওয়া (ইন-ডোমেন) এবং অমিল (ক্রস-ডোমেন) বিভাগে মূল্যায়ন করি। আমরা সহায়ক প্রশিক্ষণ ডেটার 550k উদাহরণ হিসাবে SNLI কর্পাস ব্যবহার এবং সুপারিশ করি।
ডাউনলোড সাইজ :
298.29 MiB
ডেটাসেটের আকার :
100.56 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test_matched' | ৯,৭৯৬ |
'test_mismatched' | ৯,৮৪৭ |
'train' | 392,702 |
'validation_matched' | ৯,৮১৫ |
'validation_mismatched' | ৯,৮৩২ |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
'premise': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
অনুমান | পাঠ্য | স্ট্রিং | ||
idx | টেনসর | int32 | ||
লেবেল | ক্লাসলেবেল | int64 | ||
ভিত্তি | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@InProceedings{N18-1101,
author = "Williams, Adina
and Nangia, Nikita
and Bowman, Samuel",
title = "A Broad-Coverage Challenge Corpus for
Sentence Understanding through Inference",
booktitle = "Proceedings of the 2018 Conference of
the North American Chapter of the
Association for Computational Linguistics:
Human Language Technologies, Volume 1 (Long
Papers)",
year = "2018",
publisher = "Association for Computational Linguistics",
pages = "1112--1122",
location = "New Orleans, Louisiana",
url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
title={A large annotated corpus for learning natural language inference},
author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
journal={arXiv preprint arXiv:1508.05326},
year={2015}
}
@inproceedings{wang2019glue,
title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
note={In the Proceedings of ICLR.},
year={2019}
}
Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.
আঠালো/mnli_অমিল
কনফিগারেশনের বিবরণ : MNLI থেকে অমিল বৈধকরণ এবং পরীক্ষা বিভক্ত। অতিরিক্ত তথ্যের জন্য "mnli" BuilderConfig দেখুন।
ডাউনলোড সাইজ :
298.29 MiB
ডেটাসেটের আকার :
4.79 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | ৯,৮৪৭ |
'validation' | ৯,৮৩২ |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
'premise': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
অনুমান | পাঠ্য | স্ট্রিং | ||
idx | টেনসর | int32 | ||
লেবেল | ক্লাসলেবেল | int64 | ||
ভিত্তি | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@InProceedings{N18-1101,
author = "Williams, Adina
and Nangia, Nikita
and Bowman, Samuel",
title = "A Broad-Coverage Challenge Corpus for
Sentence Understanding through Inference",
booktitle = "Proceedings of the 2018 Conference of
the North American Chapter of the
Association for Computational Linguistics:
Human Language Technologies, Volume 1 (Long
Papers)",
year = "2018",
publisher = "Association for Computational Linguistics",
pages = "1112--1122",
location = "New Orleans, Louisiana",
url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
title={A large annotated corpus for learning natural language inference},
author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
journal={arXiv preprint arXiv:1508.05326},
year={2015}
}
@inproceedings{wang2019glue,
title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
note={In the Proceedings of ICLR.},
year={2019}
}
Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.
glue/mnli_matched
কনফিগারেশনের বিবরণ : MNLI থেকে মিলে যাওয়া বৈধতা এবং পরীক্ষা বিভক্ত। অতিরিক্ত তথ্যের জন্য "mnli" BuilderConfig দেখুন।
ডাউনলোড সাইজ :
298.29 MiB
ডেটাসেটের আকার :
4.58 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | ৯,৭৯৬ |
'validation' | ৯,৮১৫ |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
'premise': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
অনুমান | পাঠ্য | স্ট্রিং | ||
idx | টেনসর | int32 | ||
লেবেল | ক্লাসলেবেল | int64 | ||
ভিত্তি | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@InProceedings{N18-1101,
author = "Williams, Adina
and Nangia, Nikita
and Bowman, Samuel",
title = "A Broad-Coverage Challenge Corpus for
Sentence Understanding through Inference",
booktitle = "Proceedings of the 2018 Conference of
the North American Chapter of the
Association for Computational Linguistics:
Human Language Technologies, Volume 1 (Long
Papers)",
year = "2018",
publisher = "Association for Computational Linguistics",
pages = "1112--1122",
location = "New Orleans, Louisiana",
url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
title={A large annotated corpus for learning natural language inference},
author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
journal={arXiv preprint arXiv:1508.05326},
year={2015}
}
@inproceedings{wang2019glue,
title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
note={In the Proceedings of ICLR.},
year={2019}
}
Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.
আঠা/qnli
কনফিগারেশনের বিবরণ : স্ট্যানফোর্ড প্রশ্ন উত্তরকারী ডেটাসেট হল একটি প্রশ্ন-উত্তরকারী ডেটাসেট যা প্রশ্ন-অনুচ্ছেদ জোড়া নিয়ে গঠিত, যেখানে অনুচ্ছেদের একটি বাক্যে (উইকিপিডিয়া থেকে আঁকা) সংশ্লিষ্ট প্রশ্নের উত্তর রয়েছে (একজন টীকাকার দ্বারা লিখিত)। আমরা প্রতিটি প্রশ্ন এবং সংশ্লিষ্ট প্রসঙ্গে প্রতিটি বাক্যের মধ্যে একটি জোড়া গঠন করে এবং প্রশ্ন এবং প্রসঙ্গ বাক্যের মধ্যে কম আভিধানিক ওভারল্যাপ সহ জোড়া ফিল্টার করে কাজটিকে বাক্য জোড়া শ্রেণীবিভাগে রূপান্তর করি। কাজটি হল প্রসঙ্গ বাক্যে প্রশ্নের উত্তর আছে কিনা তা নির্ধারণ করা। আসল টাস্কের এই পরিবর্তিত সংস্করণটি মডেলটি সঠিক উত্তর নির্বাচন করার প্রয়োজনীয়তাকে সরিয়ে দেয়, তবে উত্তরটি সর্বদা ইনপুটে উপস্থিত থাকে এবং সেই আভিধানিক ওভারল্যাপ একটি নির্ভরযোগ্য সংকেতকে সরলীকরণকারী অনুমানগুলিও সরিয়ে দেয়।
ডাউনলোড আকার :
10.14 MiB
ডেটাসেটের আকার :
32.99 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | ৫,৪৬৩ |
'train' | 104,743 |
'validation' | ৫,৪৬৩ |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'question': Text(shape=(), dtype=string),
'sentence': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
idx | টেনসর | int32 | ||
লেবেল | ক্লাসলেবেল | int64 | ||
প্রশ্ন | পাঠ্য | স্ট্রিং | ||
বাক্য | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@article{rajpurkar2016squad,
title={Squad: 100,000+ questions for machine comprehension of text},
author={Rajpurkar, Pranav and Zhang, Jian and Lopyrev, Konstantin and Liang, Percy},
journal={arXiv preprint arXiv:1606.05250},
year={2016}
}
@inproceedings{wang2019glue,
title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
note={In the Proceedings of ICLR.},
year={2019}
}
Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.
আঠা/আরটিই
কনফিগারেশনের বিবরণ : রিকগনিজিং টেক্সচুয়াল এনটেইলমেন্ট (RTE) ডেটাসেটগুলি বার্ষিক পাঠ্য এনটেইলমেন্ট চ্যালেঞ্জগুলির একটি সিরিজ থেকে আসে৷ আমরা RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007), এবং RTE5 (Bentivogli et al., 2009) থেকে ডেটা একত্রিত করি। 4 উদাহরণ হল সংবাদ এবং উইকিপিডিয়া পাঠের উপর ভিত্তি করে নির্মিত। আমরা সমস্ত ডেটাসেটকে দুই-শ্রেণীর বিভাজনে রূপান্তরিত করি, যেখানে তিন-শ্রেণীর ডেটাসেটের জন্য আমরা সামঞ্জস্যের জন্য নিরপেক্ষ এবং দ্বন্দ্বকে এনটেইলমেন্টে ভেঙে ফেলি।
হোমপেজ : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment
ডাউনলোড সাইজ :
680.81 KiB
ডেটাসেটের আকার :
2.15 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 3,000 |
'train' | 2,490 |
'validation' | 277 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
idx | টেনসর | int32 | ||
লেবেল | ক্লাসলেবেল | int64 | ||
বাক্য1 | পাঠ্য | স্ট্রিং | ||
বাক্য2 | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{dagan2005pascal,
title={The PASCAL recognising textual entailment challenge},
author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
booktitle={Machine Learning Challenges Workshop},
pages={177--190},
year={2005},
organization={Springer}
}
@inproceedings{bar2006second,
title={The second pascal recognising textual entailment challenge},
author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
volume={6},
number={1},
pages={6--4},
year={2006},
organization={Venice}
}
@inproceedings{giampiccolo2007third,
title={The third pascal recognizing textual entailment challenge},
author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
pages={1--9},
year={2007},
organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
booktitle={TAC},
year={2009}
}
@inproceedings{wang2019glue,
title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
note={In the Proceedings of ICLR.},
year={2019}
}
Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.
আঠা/ওয়ানলি
কনফিগারেশনের বিবরণ : উইনোগ্রাড স্কিমা চ্যালেঞ্জ (লেভেস্ক এট আল।, 2011) একটি পাঠ বোঝার কাজ যেখানে একটি সিস্টেমকে অবশ্যই একটি সর্বনাম সহ একটি বাক্য পড়তে হবে এবং পছন্দের তালিকা থেকে সেই সর্বনামের রেফারেন্ট নির্বাচন করতে হবে। উদাহরণগুলি ম্যানুয়ালি সাধারণ পরিসংখ্যানগত পদ্ধতিগুলিকে ব্যর্থ করার জন্য তৈরি করা হয়েছে: প্রতিটি একটি বাক্যে একটি একক শব্দ বা বাক্যাংশ দ্বারা প্রদত্ত প্রাসঙ্গিক তথ্যের উপর নির্ভরশীল। সমস্যাটিকে বাক্য জোড়া শ্রেণীবিভাগে রূপান্তর করতে, আমরা প্রতিটি সম্ভাব্য রেফারেন্টের সাথে অস্পষ্ট সর্বনাম প্রতিস্থাপন করে বাক্য জোড়া তৈরি করি। কাজটি হল ভবিষ্যদ্বাণী করা যে সর্বনামের প্রতিস্থাপিত বাক্যটি মূল বাক্যের দ্বারা যুক্ত হয় কিনা। আমরা কল্পকাহিনীর বই থেকে প্রাপ্ত নতুন উদাহরণ সমন্বিত একটি ছোট মূল্যায়ন সেট ব্যবহার করি যা মূল কর্পাসের লেখকদের দ্বারা ব্যক্তিগতভাবে ভাগ করা হয়েছিল। যদিও অন্তর্ভুক্ত প্রশিক্ষণ সেট দুটি শ্রেণীর মধ্যে ভারসাম্যপূর্ণ, পরীক্ষার সেটটি তাদের মধ্যে ভারসাম্যহীন (65% এনটেইলমেন্ট নয়)। এছাড়াও, একটি ডেটা ব্যঙ্গের কারণে, উন্নয়ন সেটটি প্রতিপক্ষ: অনুমানগুলি কখনও কখনও প্রশিক্ষণ এবং উন্নয়ন উদাহরণগুলির মধ্যে ভাগ করা হয়, তাই যদি একটি মডেল প্রশিক্ষণের উদাহরণগুলি মুখস্থ করে, তাহলে তারা সংশ্লিষ্ট উন্নয়ন সেট উদাহরণের উপর ভুল লেবেলের পূর্বাভাস দেবে৷ QNLI-এর মতো, প্রতিটি উদাহরণ আলাদাভাবে মূল্যায়ন করা হয়, তাই এই টাস্কে মডেলের স্কোর এবং অপরিবর্তিত মূল টাস্কে এর স্কোরের মধ্যে একটি পদ্ধতিগত চিঠিপত্র নেই। আমরা রূপান্তরিত ডেটাসেটকে WNLI (Winograd NLI) বলি।
হোমপেজ : https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html
ডাউনলোড সাইজ :
28.32 KiB
ডেটাসেটের আকার :
198.88 KiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 146 |
'train' | 635 |
'validation' | 71 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
idx | টেনসর | int32 | ||
লেবেল | ক্লাসলেবেল | int64 | ||
বাক্য1 | পাঠ্য | স্ট্রিং | ||
বাক্য2 | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{levesque2012winograd,
title={The winograd schema challenge},
author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
year={2012}
}
@inproceedings{wang2019glue,
title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
note={In the Proceedings of ICLR.},
year={2019}
}
Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.
আঠা/কুঠার
কনফিগারেশনের বিবরণ : ভাষাগত ঘটনাগুলির বিস্তৃত পরিসরে সিস্টেমের কর্মক্ষমতার সূক্ষ্ম-দানাযুক্ত বিশ্লেষণের জন্য একটি ম্যানুয়ালি-কিউরেটেড মূল্যায়ন ডেটাসেট। এই ডেটাসেট ন্যাচারাল ল্যাঙ্গুয়েজ ইনফারেন্স (NLI) সমস্যার মাধ্যমে বাক্য বোঝার মূল্যায়ন করে। এই ডেটাসেটের পূর্বাভাস তৈরি করতে MulitNLI-তে প্রশিক্ষিত একটি মডেল ব্যবহার করুন।
ডাউনলোড সাইজ :
217.05 KiB
ডেটাসেটের আকার :
299.16 KiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 1,104 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
'premise': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
অনুমান | পাঠ্য | স্ট্রিং | ||
idx | টেনসর | int32 | ||
লেবেল | ক্লাসলেবেল | int64 | ||
ভিত্তি | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{wang2019glue,
title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
note={In the Proceedings of ICLR.},
year={2019}
}
Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.