অস্কার

তথ্যসূত্র:

unshuffled_deduplicated_af

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_af')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 130640
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_als

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_als')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 4518
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_arz

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_arz')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 79928
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_an

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_an')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 2025
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ast

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ast')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 5343
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ba

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ba')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 27050
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_am

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_am')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 43102
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_as

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_as')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 9212
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_azb

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_azb')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 9985
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_be

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_be')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 307405
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bo

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bo')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 15762
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bxr

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bxr')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 36
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ceb

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ceb')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 26145
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_az

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_az')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 626796
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bcl

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bcl')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 1
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_cy

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cy')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 98225
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_dsb

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_dsb')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 37
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bn

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bn')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 1114481
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bs

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bs')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 702
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ce

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ce')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 2984
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_cv

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cv')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 10130
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_diq

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_diq')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 1
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_eml

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eml')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 80
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_et

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_et')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 1172041
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bg

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bg')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' ৩৩৯৮৬৭৯
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bpy

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bpy')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 1770
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ca

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ca')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 2458067
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ckb

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ckb')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 68210
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ar

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ar')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 9006977
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_av

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_av')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 360
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bar

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bar')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 4
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bh

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bh')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 82
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_br

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_br')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 14724
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_cbk

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cbk')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 1
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_da

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_da')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 4771098
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_dv

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_dv')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 17024
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_eo

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eo')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 84752
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_fa

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fa')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 8203495
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_fy

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fy')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 20661
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_gn

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gn')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 68
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_cs

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cs')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 12308039
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_hi

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hi')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 1909387
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_hu

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hu')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 6582908
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ie

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ie')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স CC0 লাইসেন্সের অধীনে এই ডেটার প্রকৃত প্যাকেজিং লাইসেন্স করি ("কোনও অধিকার সংরক্ষিত নেই") OSCAR-এর প্রতিবেশী অধিকার এই কাজটি থেকে প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটাতে আপনার মালিকানাধীন উপাদান রয়েছে এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, অনুগ্রহ করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে প্রভাবিত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব৷

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 11
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_fr

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fr')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় যা থেকে এই ডেটাগুলি বের করা হয়েছে এমন কোনও পাঠ্যের মালিকানা আমাদের নেই৷ আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 59448891
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

uncuffled_deduplicated_gd

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gd')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 3883
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

uncuffled_deduplated_gu

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gu')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 169834
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

uncuffled_deduplicate_hsb

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hsb')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 3084
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

uncuffled_deduplicated_ia

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ia')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 529
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

uncuffled_deduplatic_io

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_io')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 617
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

uncuffled_deduplicated_jbo

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_jbo')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 617
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

uncuffled_deduplicated_km

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_km')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 108346
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

uncuffled_deduplatic_ku

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ku')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 29054
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

uncuffled_deduplated_la

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_la')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 18808
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

uncuffled_deduplicated_lmo

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lmo')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 1374
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

uncuffled_deduplicated_lv

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lv')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 843195
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

uncuffled_deduplated_min

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_min')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 166
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

uncuffled_deduplicated_mr

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mr')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 212556
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

uncuffled_deduplicated_mwl

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mwl')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 7
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

uncuffled_deduplatic_nah

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nah')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 58
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

uncuffled_deduplicated_new

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_new')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 2126
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

uncuffled_deduplicated_oc

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_oc')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 6485
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

uncuffled_deduplicated_pam

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pam')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 1
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

uncuffled_deduplicated_ps

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ps')
  • বর্ণনা :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • লাইসেন্স : এই ডেটাগুলি এই লাইসেন্সিং স্কিমের অধীনে প্রকাশিত হয় আমাদের যে কোনও পাঠ্য থেকে এই ডেটা বের করা হয়েছে তার কোনওটিরই মালিকানা নেই। আমরা ক্রিয়েটিভ কমন্স সিসি 0 লাইসেন্স ("কোনও অধিকার সংরক্ষিত নেই") এর অধীনে এই ডেটাগুলির প্রকৃত প্যাকেজিং লাইসেন্স http://creativecommons.org/publicomain/zero/1.0/ আইনের অধীনে যে পরিমাণে সম্ভব সম্ভব, ইনরিয়া সমস্ত কপিরাইট এবং সম্পর্কিত বা মওকুফ করেছে বা অস্কারের প্রতিবেশী অধিকারগুলি এই কাজটি প্রকাশিত হয়েছে: ফ্রান্স।

    আপনি যদি বিবেচনা করেন যে আমাদের ডেটা এমন উপাদান রয়েছে যা আপনার মালিকানাধীন এবং তাই এখানে পুনরুত্পাদন করা উচিত নয়, দয়া করে:

    • আপনার সাথে যোগাযোগ করা যেতে পারে এমন ঠিকানা, টেলিফোন নম্বর বা ইমেল ঠিকানার মতো বিস্তারিত যোগাযোগের ডেটা সহ স্পষ্টভাবে নিজেকে সনাক্ত করুন।
    • লঙ্ঘন বলে দাবি করা কপিরাইটযুক্ত কাজটি স্পষ্টভাবে চিহ্নিত করুন।
    • লঙ্ঘনকারী বলে দাবি করা হয়েছে এমন উপাদানটি স্পষ্টভাবে সনাক্ত করুন এবং আমাদের উপাদানটি সনাক্ত করার অনুমতি দেওয়ার জন্য যথেষ্ট তথ্য।

    আমরা কর্পাসের পরবর্তী প্রকাশ থেকে আক্রান্ত উত্সগুলি সরিয়ে বৈধ অনুরোধগুলি মেনে চলব।

  • সংস্করণ : 1.0.0

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 67921
  • বৈশিষ্ট্য :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id":