참고자료:
TFDS에 이 데이터세트를 로드하려면 다음 명령어를 사용하세요.
ds = tfds.load('huggingface:makhzan')
- 설명 :
An Urdu text corpus for machine learning, natural language processing and linguistic analysis.
- 라이센스 : /text 디렉토리의 모든 파일은 표준저작권의 보호를 받습니다. 각 텍스트는 해당 저작권 소유자의 명시적인 허가를 받아 이 저장소에 포함되었습니다. 각 파일에 대한 태그입니다. 분석, 연구 및 개발을 위해 이 텍스트를 자유롭게 사용할 수 있지만 이 텍스트를 재배포하거나 재발행하는 것은 허용되지 않습니다. /text 디렉토리의 파일에 덜 제한적인 라이센스가 적용될 수 있는 일부 경우가 아래에 나와 있습니다. 어떤 경우에는 저작권이 없는 텍스트가 우리 협력자들의 노고를 통해 디지털 방식으로 복제되었습니다. 이러한 경우 파일 메타데이터의 메모 필드에 가능한 경우 적절한 사람의 이름을 표시했으며 이 텍스트를 어떤 형식으로든 재배포하기 전에 해당 사람에게 연락할 것을 적극 권장합니다. 텍스트와 함께 별도의 라이센스가 제공되는 경우 파일 메타데이터의 출판 필드에 해당 데이터를 제공했습니다.
- 버전 : 1.0.0
- 분할 :
나뉘다 | 예 |
---|---|
'train' | 5522 |
- 특징 :
{
"file_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"metadata": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"title": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"num-words": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"contains-non-urdu-languages": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"document_body": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}