makhzan

Người giới thiệu:

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:makhzan')
  • Mô tả :
An Urdu text corpus for machine learning, natural language processing and linguistic analysis.
  • Giấy phép : Tất cả các tệp trong thư mục / text đều được bảo hộ theo bản quyền tiêu chuẩn. Mỗi đoạn văn bản đã được đưa vào kho lưu trữ này với sự cho phép rõ ràng của các chủ sở hữu bản quyền tương ứng, những người được xác định trong cho mỗi tệp. Bạn có thể tự do sử dụng văn bản này để phân tích, nghiên cứu và phát triển, nhưng bạn không được phép phân phối lại hoặc xuất bản lại văn bản này. Một số trường hợp mà giấy phép ít hạn chế hơn có thể áp dụng cho các tệp trong thư mục / text được trình bày bên dưới. Trong một số trường hợp, văn bản miễn phí bản quyền đã được sao chép kỹ thuật số nhờ sự làm việc chăm chỉ của các cộng tác viên của chúng tôi. Trong những trường hợp như vậy, chúng tôi đã ghi công những người thích hợp nếu có thể trong trường ghi chú trong siêu dữ liệu của tệp và chúng tôi đặc biệt khuyến khích bạn liên hệ với họ trước khi phân phối lại văn bản này dưới mọi hình thức. Khi giấy phép riêng biệt được cung cấp cùng với văn bản, chúng tôi đã cung cấp dữ liệu tương ứng trong trường xuất bản trong siêu dữ liệu của tệp.
  • Phiên bản : 1.0.0
  • Tách :
Tách ra Các ví dụ
'train' 5522
  • Các tính năng :
{
    "file_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "metadata": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "num-words": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "contains-non-urdu-languages": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "document_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}