마흐잔

참고자료:

TFDS에 이 데이터세트를 로드하려면 다음 명령어를 사용하세요.

ds = tfds.load('huggingface:makhzan')

설명 :

An Urdu text corpus for machine learning, natural language processing and linguistic analysis.

라이센스 : /text 디렉토리의 모든 파일은 표준저작권의 보호를 받습니다. 각 텍스트는 해당 저작권 소유자의 명시적인 허가를 받아 이 저장소에 포함되었습니다. 각 파일에 대한 태그입니다. 분석, 연구 및 개발을 위해 이 텍스트를 자유롭게 사용할 수 있지만 이 텍스트를 재배포하거나 재발행하는 것은 허용되지 않습니다. /text 디렉토리의 파일에 덜 제한적인 라이센스가 적용될 수 있는 일부 경우가 아래에 나와 있습니다. 어떤 경우에는 저작권이 없는 텍스트가 우리 협력자들의 노고를 통해 디지털 방식으로 복제되었습니다. 이러한 경우 파일 메타데이터의 메모 필드에 가능한 경우 적절한 사람의 이름을 표시했으며 이 텍스트를 어떤 형식으로든 재배포하기 전에 해당 사람에게 연락할 것을 적극 권장합니다. 텍스트와 함께 별도의 라이센스가 제공되는 경우 파일 메타데이터의 출판 필드에 해당 데이터를 제공했습니다.
버전 : 1.0.0
분할 :

나뉘다	예
`'train'`	5522

특징 :

{
    "file_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "metadata": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "num-words": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "contains-non-urdu-languages": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "document_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}