oscar

Người giới thiệu:

không xáo trộn_deduplicate_af

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_af')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 130640
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_als

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_als')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 4518
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_arz

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_arz')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 79928
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_an

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_an')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 2025
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_ast

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ast')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 5343
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_ba

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ba')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 27050
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_am

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_am')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 43102
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_as

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_as')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 9212
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_azb

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_azb')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 9985
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_be

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_be')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 307405
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_bo

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bo')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 15762
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_bxr

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bxr')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 36
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_ceb

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ceb')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 26145
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_az

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_az')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 626796
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_bcl

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bcl')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_cy

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cy')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 98225
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_dsb

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_dsb')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 37
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_bn

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bn')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1114481
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_bs

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bs')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 702
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_ce

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ce')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 2984
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_cv

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cv')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 10130
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_diq

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_diq')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_eml

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eml')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 80
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_et

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_et')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1172041
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_bg

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bg')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 3398679
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_bpy

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bpy')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1770
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_ca

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ca')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 2458067
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_ckb

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ckb')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 68210
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_ar

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ar')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 9006977
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_av

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_av')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 360
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_bar

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bar')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 4
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_bh

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bh')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 82
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_br

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_br')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 14724
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_cbk

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cbk')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_da

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_da')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 4771098
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_dv

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_dv')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 17024
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_eo

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eo')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 84752
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_fa

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fa')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 8203495
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_fy

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fy')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 20661
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_gn

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gn')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 68
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_cs

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cs')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 12308039
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_hi

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hi')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1909387
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_hu

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hu')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 6582908
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_ie

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ie')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 11
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_fr

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fr')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 59448891
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_gd

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gd')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 3883
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_gu

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gu')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 169834
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_hsb

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hsb')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 3084
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_ia

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ia')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 529
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_io

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_io')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 617
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_jbo

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_jbo')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 617
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_km

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_km')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 108346
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_ku

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ku')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 29054
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_la

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_la')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 18808
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_lmo

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lmo')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1374
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_lv

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lv')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 843195
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_min

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_min')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 166
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_mr

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mr')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 212556
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_mwl

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mwl')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 7
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_nah

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nah')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 58
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_mới

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_new')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 2126
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_oc

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_oc')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 6485
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_pam

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pam')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_ps

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ps')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 67921
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_it

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_it')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 28522082
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_ka

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ka')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 372158
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_ro

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ro')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 5044757
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_scn

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_scn')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 17
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_ko

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ko')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 3675420
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_kw

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_kw')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 68
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_lez

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lez')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1381
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_lrc

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lrc')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 72
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_mg

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mg')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 13343
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_ml

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ml')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 453904
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_ms

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ms')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 183443
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_myv

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_myv')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 5
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_nds

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nds')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 8714
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_nn

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nn')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 109118
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_os

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_os')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 2559
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_pms

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pms')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 2859
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_qu

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_qu')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 411
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_sa

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sa')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 7121
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_sk

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sk')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 2820821
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_sh

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sh')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 17610
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_so

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_so')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 42
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_sr

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sr')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 645747
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_ta

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ta')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 833101
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_tk

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tk')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 4694
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_tyv

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tyv')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 24
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_uz

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_uz')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 15074
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_wa

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_wa')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 677
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_xmf

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_xmf')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 2418
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_sv

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sv')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 11014487
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_tg

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tg')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 56259
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_de

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_de')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 62398034
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_tr

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tr')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 11596446
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_el

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_el')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 6521169
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_uk

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_uk')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 7782375
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_vi

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_vi')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 9897709
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_wuu

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_wuu')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 64
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_yo

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_yo')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 49
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_als

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_als')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 7324
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_arz

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_arz')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 158113
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_az

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_az')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 912330
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_bcl

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bcl')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_bn

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bn')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1675515
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_bs

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bs')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 2143
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ce

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ce')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 4042
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_cv

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_cv')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 20281
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_diq

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_diq')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_origin_eml

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_eml')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 84
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_et

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_et')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 2093621
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_zh

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_zh')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 41708901
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_an

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_an')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 2449
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ast

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ast')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 6999
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ba

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ba')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 42551
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_bg

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bg')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 5869686
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_bpy

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bpy')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 6046
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ca

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ca')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 4390754
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ckb

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ckb')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 103639
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_es

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_es')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 56326016
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_da

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_da')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 7664010
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_dv

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_dv')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 21018
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_eo

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_eo')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 121168
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_fi

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fi')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 5326443
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_ga

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ga')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 46493
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_gom

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gom')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 484
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_hr

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hr')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 321484
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_hy

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hy')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 396093
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_ilo

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ilo')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1578
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_fa

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_fa')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 13704702
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_fy

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_fy')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 33053
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_gn

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_gn')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 106
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_hi

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_hi')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 3264660
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_hu

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_hu')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 11197780
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ie

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ie')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 101
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_ja

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ja')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 39496439
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_kk

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_kk')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 338073
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_krc

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_krc')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1377
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_ky

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ky')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 86561
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_li

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_li')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 118
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_lt

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lt')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1737411
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_mhr

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mhr')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 2515
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_mn

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mn')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 197878
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_mt

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mt')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 16383
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_mzn

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mzn')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 917
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_ne

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ne')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 219334
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_no

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_no')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 3229940
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_pa

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pa')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 87235
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_pnb

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pnb')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 3463
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_rm

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_rm')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 34
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_sah

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sah')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 8555
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_si

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_si')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 120684
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_sq

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sq')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 461598
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_sw

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sw')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 24803
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_th

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_th')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 3749826
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_tt

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tt')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 82738
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_ur

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ur')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 428674
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_vo

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_vo')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 3317
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_xal

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_xal')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 36
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_yue

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_yue')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 7
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_am

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_am')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 83663
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_as

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_as')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 14985
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_azb

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_azb')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 15446
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_be

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_be')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 586031
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_bo

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bo')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 26795
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_bxr

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bxr')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 42
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ceb

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ceb')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 56248
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_cy

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_cy')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 157698
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_dsb

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_dsb')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 65
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_fr

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_fr')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 96742378
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_gd

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_gd')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 5799
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_gu

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_gu')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 240691
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_hsb

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_hsb')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 7959
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ia

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ia')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1040
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_io

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_io')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 694
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_jbo

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_jbo')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 832
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_km

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_km')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 159363
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ku

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ku')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 46535
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_la

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_la')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 94588
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_lmo

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lmo')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1401
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_lv

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lv')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1593820
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_min

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_min')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 220
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_mr

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mr')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 326804
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_mwl

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mwl')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' số 8
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_nah

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_nah')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 61
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_new

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_new')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 4696
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_oc

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_oc')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 10709
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_pam

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_pam')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 3
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ps

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ps')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 98216
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ro

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ro')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 9387265
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_scn

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_scn')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 21
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_sk

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sk')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 5492194
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_sr

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sr')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1013619
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ta

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ta')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1263280
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_tk

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_tk')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 6456
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_tyv

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_tyv')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 34
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_uz

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_uz')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 27537
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_wa

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_wa')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1001
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_xmf

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_xmf')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 3783
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_it

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_it')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 46981781
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ka

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ka')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 563916
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ko

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ko')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 7345075
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_kw

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_kw')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 203
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_lez

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lez')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1485
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_lrc

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lrc')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 88
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_mg

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mg')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 17957
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ml

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ml')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 603937
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ms

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ms')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 534016
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_myv

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_myv')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 6
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_origin_nds

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_nds')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 18174
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_nn

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_nn')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 185884
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_os

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_os')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 5213
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_origin_pms

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_pms')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 3225
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_qu

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_qu')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 452
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_sa

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sa')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 14291
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_sh

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sh')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 36700
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_so

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_so')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 156
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_sv

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sv')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 17395625
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_tg

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_tg')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 89002
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_tr

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_tr')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 18535253
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_uk

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_uk')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 12973467
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_vi

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_vi')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 14898250
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_wuu

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_wuu')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 214
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_yo

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_yo')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 214
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_zh

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_zh')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 60137667
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_en

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_en')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 304230423
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_eu

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eu')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 256513
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_frr

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_frr')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 7
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_gl

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gl')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 284320
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_he

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_he')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 2375030
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_ht

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ht')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 9
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_id

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_id')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 9948521
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_is

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_is')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 389515
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_jv

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_jv')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1163
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_kn

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_kn')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 251064
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_kv

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_kv')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 924
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_lb

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lb')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 21735
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_lo

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lo')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 32652
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_mai

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mai')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 25
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_mk

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mk')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 299457
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_mrj

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mrj')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 669
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_của tôi

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_my')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 136639
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_nap

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nap')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 55
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_nl

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nl')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 20812149
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_or

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_or')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 44230
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_pl

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pl')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 20682611
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_pt

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pt')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 26920397
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_ru

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ru')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 115954598
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_sd

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sd')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 33925
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_sl

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sl')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 886223
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_su

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_su')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 511
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_te

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_te')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 312644
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_tl

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tl')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 294132
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_ug

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ug')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 15503
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_vec

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_vec')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 64
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_war

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_war')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 9161
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_yi

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_yi')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 32919
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_af

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_af')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 201117
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ar

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ar')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 16365602
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_av

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_av')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 456
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_origin_bar

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bar')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 4
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_bh

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bh')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 336
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_br

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_br')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 37085
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_cbk

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_cbk')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_origin_cs

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_cs')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 21001388
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_de

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_de')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 104913504
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_el

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_el')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 10425596
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_origin_es

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_es')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 88199221
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_fi

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_fi')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 8557453
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ga

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ga')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 83223
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_origin_gom

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_gom')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 640
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_hr

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_hr')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 582219
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_hy

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_hy')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 659430
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ilo

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ilo')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 2638
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ja

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ja')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 62721527
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_kk

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_kk')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 524591
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_krc

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_krc')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1581
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ky

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ky')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 146993
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_li

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_li')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 137
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_lt

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lt')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 2977757
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_mhr

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mhr')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 3212
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_mn

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mn')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 395605
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_mt

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mt')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 26598
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_mzn

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mzn')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1055
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ne

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ne')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 299938
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_no

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_no')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 5546211
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_pa

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_pa')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 127467
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_pnb

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_pnb')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 4599
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_rm

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_rm')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 41
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_sah

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sah')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 22301
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_si

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_si')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 203082
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_sq

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sq')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 672077
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_sw

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sw')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 41986
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_th

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_th')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 6064129
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_tt

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_tt')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 135923
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ur

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ur')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 638596
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_origin_vo

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_vo')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 3366
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_xal

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_xal')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 39
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_yue

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_yue')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 11
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_en

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_en')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 455994980
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_eu

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_eu')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 506883
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_frr

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_frr')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 7
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_gl

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_gl')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 544388
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_he

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_he')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 3808397
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ht

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ht')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 13
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_origin_id

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_id')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 16236463
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_is

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_is')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 625673
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_jv

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_jv')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1445
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_kn

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_kn')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 350363
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_kv

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_kv')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1549
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_lb

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lb')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 34807
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_lo

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lo')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 52910
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_mai

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mai')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 123
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_mk

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mk')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 437871
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_mrj

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mrj')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 757
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_my

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_my')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 232329
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_origin_nap

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_nap')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 73
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_nl

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_nl')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 34682142
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_or

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_or')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 59463
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_pl

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_pl')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 35440972
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_pt

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_pt')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 42114520
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ru

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ru')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 161836003
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_sd

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sd')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 44280
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_sl

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sl')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1746604
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_su

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_su')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 805
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_te

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_te')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 475703
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_tl

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_tl')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 458206
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ug

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ug')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 22255
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_vec

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_vec')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 73
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_origin_war

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_war')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 9760
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_yi

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_yi')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 59364
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}