তথ্যসূত্র:
unshuffled_deduplicated_af
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_af')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 130640 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_als
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_als')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 4518 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_arz
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_arz')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 79928 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_an
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_an')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 2025 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ast
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ast')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 5343 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ba
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ba')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 27050 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_am
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_am')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 43102 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_as
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_as')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 9212 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_azb
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_azb')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 9985 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_be
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_be')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 307405 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bo
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bo')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 15762 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bxr
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bxr')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 36 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ceb
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ceb')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 26145 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_az
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_az')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 626796 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bcl
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bcl')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 1 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_cy
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cy')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 98225 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_dsb
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_dsb')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 37 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bn
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bn')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 1114481 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bs
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bs')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 702 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ce
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ce')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 2984 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_cv
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cv')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 10130 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_diq
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_diq')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 1 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_eml
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eml')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 80 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_et
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_et')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 1172041 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bg
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bg')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | ৩৩৯৮৬৭৯ |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bpy
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bpy')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 1770 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ca
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ca')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 2458067 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ckb
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ckb')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 68210 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ar
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ar')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 9006977 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_av
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_av')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 360 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bar
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bar')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 4 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bh
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bh')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 82 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_br
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_br')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 14724 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_cbk
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cbk')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 1 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_da
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_da')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 4771098 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_dv
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_dv')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 17024 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_eo
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eo')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 84752 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_fa
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fa')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 8203495 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_fy
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fy')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 20661 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_gn
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gn')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 68 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_cs
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cs')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 12308039 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_hi
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hi')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 1909387 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_hu
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hu')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 6582908 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ie
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ie')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 11 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_fr
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fr')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 59448891 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
uncuffled_deduplicated_gd
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gd')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 3883 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
uncuffled_deduplated_gu
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gu')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 169834 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
uncuffled_deduplicate_hsb
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hsb')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 3084 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
uncuffled_deduplicated_ia
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ia')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 529 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
uncuffled_deduplatic_io
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_io')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 617 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
uncuffled_deduplicated_jbo
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_jbo')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 617 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
uncuffled_deduplicated_km
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_km')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 108346 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
uncuffled_deduplatic_ku
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ku')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 29054 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
uncuffled_deduplated_la
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_la')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 18808 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
uncuffled_deduplicated_lmo
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lmo')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 1374 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
uncuffled_deduplicated_lv
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lv')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 843195 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
uncuffled_deduplated_min
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_min')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 166 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
uncuffled_deduplicated_mr
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mr')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 212556 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
uncuffled_deduplicated_mwl
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mwl')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 7 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
uncuffled_deduplatic_nah
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nah')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 58 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
uncuffled_deduplicated_new
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_new')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 2126 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
uncuffled_deduplicated_oc
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_oc')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 6485 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
uncuffled_deduplicated_pam
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pam')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 1 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
uncuffled_deduplicated_ps
TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ps')
- বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।
আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:
- আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
- লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
- লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।
আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।
সংস্করণ : 1.0.0
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 67921 |
- বৈশিষ্ট্য :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id":