อ้างอิง:
ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:
ds = tfds.load('huggingface:makhzan')
- คำอธิบาย :
An Urdu text corpus for machine learning, natural language processing and linguistic analysis.
- ใบอนุญาต : ไฟล์ทั้งหมดในไดเร็กทอรี /text อยู่ภายใต้ลิขสิทธิ์มาตรฐาน ข้อความแต่ละชิ้นได้รวมอยู่ในพื้นที่เก็บข้อมูลนี้โดยได้รับอนุญาตอย่างชัดเจนจากผู้ถือลิขสิทธิ์ที่เกี่ยวข้องซึ่งมีการระบุอยู่ใน แท็กสำหรับแต่ละไฟล์ คุณมีอิสระที่จะใช้ข้อความนี้เพื่อการวิเคราะห์ การวิจัย และพัฒนา แต่คุณไม่ได้รับอนุญาตให้แจกจ่ายซ้ำหรือเผยแพร่ข้อความนี้ซ้ำ บางกรณีที่สิทธิ์การใช้งานที่มีข้อจำกัดน้อยกว่าสามารถนำไปใช้กับไฟล์ในไดเร็กทอรี /text ได้แสดงไว้ด้านล่างนี้ ในบางกรณีข้อความที่ไม่มีลิขสิทธิ์ได้รับการทำซ้ำแบบดิจิทัลผ่านการทำงานอย่างหนักของผู้ร่วมงานของเรา ในกรณีเช่นนี้ เราได้ให้เครดิตบุคคลที่เหมาะสมหากเป็นไปได้ในช่องหมายเหตุในข้อมูลเมตาของไฟล์ และเราขอแนะนำให้คุณติดต่อพวกเขาก่อนที่จะแจกจ่ายข้อความนี้ในรูปแบบใดๆ ก็ตาม เมื่อมีการจัดเตรียมใบอนุญาตแยกต่างหากพร้อมกับข้อความ เราได้จัดเตรียมข้อมูลที่เกี่ยวข้องในช่องสิ่งพิมพ์ในข้อมูลเมตาของไฟล์
- เวอร์ชัน : 1.0.0
- แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 5522 |
- คุณสมบัติ :
{
"file_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"metadata": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"title": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"num-words": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"contains-non-urdu-languages": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"document_body": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}