مخزن

مراجع:

استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:

ds = tfds.load('huggingface:makhzan')

الوصف :

An Urdu text corpus for machine learning, natural language processing and linguistic analysis.

الترخيص : جميع الملفات الموجودة في الدليل النصي / مغطاة بحقوق النشر القياسية. تم تضمين كل جزء من النص في هذا المستودع بإذن صريح من أصحاب حقوق النشر المعنيين ، والذين تم تحديدهم في ملف علامة لكل ملف. لك مطلق الحرية في استخدام هذا النص للتحليل والبحث والتطوير ، ولكن لا يُسمح لك بإعادة توزيع هذا النص أو إعادة نشره. فيما يلي بعض الحالات التي يمكن فيها تطبيق ترخيص أقل تقييدًا على الملفات الموجودة في الدليل النصي /. في بعض الحالات ، تمت إعادة إنتاج النصوص الخالية من حقوق الطبع والنشر رقميًا من خلال العمل الجاد الذي قام به المتعاونون معنا. في مثل هذه الحالات ، ننسب الفضل إلى الأشخاص المناسبين حيثما أمكن ذلك في حقل الملاحظات في البيانات الوصفية للملف ، ونحن نشجعك بشدة على الاتصال بهم قبل إعادة توزيع هذا النص بأي شكل. عندما يتم توفير ترخيص منفصل مع النص ، فقد قدمنا البيانات المقابلة في حقل النشر في البيانات الوصفية للملف.
الإصدار : 1.0.0
الانقسامات :

انشق، مزق	أمثلة
`'train'`	5522

الميزات :

{
    "file_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "metadata": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "num-words": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "contains-non-urdu-languages": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "document_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}