makhzan

Tài liệu tham khảo:

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:makhzan')

Sự miêu tả :

An Urdu text corpus for machine learning, natural language processing and linguistic analysis.

Giấy phép : Tất cả các tệp trong thư mục /text đều được bảo vệ theo bản quyền tiêu chuẩn. Mỗi đoạn văn bản đã được đưa vào kho lưu trữ này với sự cho phép rõ ràng của chủ sở hữu bản quyền tương ứng, những người được xác định trong gắn thẻ cho mỗi tập tin. Bạn được tự do sử dụng văn bản này để phân tích, nghiên cứu và phát triển, nhưng bạn không được phép phân phối lại hoặc xuất bản lại văn bản này. Một số trường hợp trong đó giấy phép ít hạn chế hơn có thể áp dụng cho các tệp trong thư mục /text được trình bày bên dưới. Trong một số trường hợp, văn bản không có bản quyền đã được sao chép dưới dạng kỹ thuật số nhờ sự làm việc chăm chỉ của các cộng tác viên của chúng tôi. Trong những trường hợp như vậy, chúng tôi đã ghi công những người thích hợp nếu có thể trong trường ghi chú trong siêu dữ liệu của tệp và chúng tôi đặc biệt khuyến khích bạn liên hệ với họ trước khi phân phối lại văn bản này dưới bất kỳ hình thức nào. Khi giấy phép riêng được cung cấp cùng với văn bản, chúng tôi đã cung cấp dữ liệu tương ứng trong trường xuất bản trong siêu dữ liệu của tệp.
Phiên bản : 1.0.0
Chia tách :

Tách ra	Ví dụ
`'train'`	5522

Đặc trưng :

{
    "file_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "metadata": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "num-words": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "contains-non-urdu-languages": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "document_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}