Gỡ lỗi quy trình làm việc trên đám mây TensorFlow

Dưới đây là một số mẹo để khắc phục các sự cố không mong muốn.

Hoạt động không được phép trong phạm vi chiến lược phân phối

Lỗi như : Không được phép tạo trình tạo trong phạm vi chiến lược vì có sự mơ hồ về cách sao chép trình tạo (ví dụ: nó có nên được sao chép để mỗi bản sao có cùng số ngẫu nhiên hoặc 'tách' để mỗi bản sao có ngẫu nhiên khác nhau không? số).

Giải pháp : Việc chuyển distribution_strategy='auto' để run API sẽ bao bọc tất cả tập lệnh của bạn trong chiến lược phân phối TF dựa trên cấu hình cụm được cung cấp. Bạn sẽ thấy lỗi trên hoặc lỗi tương tự nếu vì lý do nào đó mà một thao tác không được phép trong phạm vi chiến lược phân phối. Để khắc phục lỗi, vui lòng chuyển None vào thông số distribution_strategy và tạo một phiên bản chiến lược như một phần của mã đào tạo của bạn như trong ví dụ này .

Hết thời gian xây dựng hình ảnh Docker

Lỗi như : request.Exceptions.ConnectionError: ('Kết nối bị hủy.', hết thời gian chờ('Thao tác ghi đã hết thời gian chờ'))

Giải pháp : Thư mục đang được sử dụng làm điểm vào có thể có quá nhiều dữ liệu để hình ảnh có thể xây dựng thành công và có thể có dữ liệu không liên quan trong bản dựng. Định dạng lại cấu trúc thư mục của bạn sao cho thư mục chứa điểm vào chỉ bao gồm các tệp cần thiết cho dự án hiện tại.

Phiên bản không được hỗ trợ cho đào tạo TPU

Lỗi như : Đã xảy ra lỗi khi gửi công việc. Trường: tpu_tf_version Lỗi: Phiên bản thời gian chạy được chỉ định '2.3' không được hỗ trợ cho đào tạo TPU. Vui lòng chỉ định một phiên bản thời gian chạy khác.

Giải pháp : Vui lòng sử dụng phiên bản TF 2.1. Xem Chiến lược TPU trong phần Cấu hình chiến lược cụm và phân phối .

TF xây dựng hàng đêm.

Cảnh báo như : Hình ảnh gốc của Docker '2.4.0.dev20200720' không tồn tại. Sử dụng bản dựng hàng đêm TF mới nhất.

Giải pháp : Nếu bạn không cung cấp thông số docker_config.parent_image thì theo mặc định, chúng tôi sử dụng hình ảnh docker TF dựng sẵn làm hình ảnh gốc. Nếu bạn chưa cài đặt TF trên môi trường nơi run được gọi thì hình ảnh docker TF cho bản phát hành ổn định latest sẽ được sử dụng. Nếu không, phiên bản của hình ảnh docker sẽ khớp với phiên bản TF được cài đặt cục bộ. Tuy nhiên, hình ảnh docker TF dựng sẵn không có sẵn cho các đêm TF ngoại trừ hình ảnh mới nhất. Vì vậy, nếu TF địa phương của bạn là phiên bản hàng đêm cũ hơn, chúng tôi sẽ tự động nâng cấp lên phiên bản hàng đêm mới nhất và đưa ra cảnh báo này.

Trộn các đối tượng chiến lược phân phối.

Lỗi như : RuntimeError: Trộn các đối tượng tf.distribute.Strategy khác nhau.

Giải pháp : Vui lòng cung cấp distribution_strategy=None khi bạn đã xác định chiến lược phân phối trong mã mô hình của mình. Việc chỉ định distribution_strategy'='auto' , sẽ bao bọc mã của bạn trong chiến lược phân phối TensorFlow. Điều này sẽ gây ra lỗi trên nếu có một đối tượng chiến lược đã được sử dụng trong mã của bạn.