مخزن

مراجع:

استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:

ds = tfds.load('huggingface:makhzan')

وصف :

An Urdu text corpus for machine learning, natural language processing and linguistic analysis.

الترخيص : جميع الملفات الموجودة في الدليل /text تخضع لحقوق الطبع والنشر القياسية. تم تضمين كل جزء من النص في هذا المستودع بإذن صريح من أصحاب حقوق الطبع والنشر المعنيين، الذين تم تحديدهم في علامة لكل ملف. لك الحرية في استخدام هذا النص للتحليل والبحث والتطوير، ولكن لا يسمح لك بإعادة توزيع أو إعادة نشر هذا النص. فيما يلي بعض الحالات التي يمكن أن ينطبق فيها ترخيص أقل تقييدًا على الملفات الموجودة في الدليل /text. في بعض الحالات، تم إعادة إنتاج النص الخالي من حقوق الطبع والنشر رقميًا من خلال العمل الشاق الذي قام به المتعاونون معنا. في مثل هذه الحالات، قمنا بإضافة الأشخاص المناسبين حيثما أمكن ذلك في حقل الملاحظات في البيانات التعريفية للملف، ونشجعك بشدة على الاتصال بهم قبل إعادة توزيع هذا النص بأي شكل من الأشكال. عندما يتم توفير ترخيص منفصل مع النص، فقد قدمنا البيانات المقابلة في حقل النشر في البيانات الوصفية للملف.
الإصدار : 1.0.0
الإنشقاقات :

ينقسم	أمثلة
`'train'`	5522

سمات :

{
    "file_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "metadata": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "num-words": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "contains-non-urdu-languages": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "document_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}