Tham gia cùng chúng tôi tại DevFest cho Ukraine Ngày 14-15 tháng 6 Trực tuyến Đăng ký ngay

Thành phần đường ống SchemaGen TFX

Một số thành phần TFX sử dụng một mô tả về dữ liệu đầu vào của bạn được gọi là giản đồ. Giản đồ là một thể hiện của schema.proto . Nó có thể chỉ định kiểu dữ liệu cho các giá trị đối tượng, liệu đối tượng có phải hiện diện trong tất cả các ví dụ, phạm vi giá trị được phép và các thuộc tính khác hay không. Thành phần đường dẫn SchemaGen sẽ tự động tạo một lược đồ bằng cách suy ra các loại, danh mục và phạm vi từ dữ liệu đào tạo.

  • Tiêu thụ: số liệu thống kê từ một thành phần StatisticsGen
  • Phát ra: Proto giản đồ dữ liệu

Đây là một đoạn trích từ một proto giản đồ:

...
feature {
  name: "age"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
feature {
  name: "capital-gain"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
...

Các thư viện TFX sau sử dụng lược đồ:

  • Xác thực dữ liệu TensorFlow
  • Chuyển đổi TensorFlow
  • Phân tích mô hình TensorFlow

Trong một đường ống TFX điển hình, SchemaGen tạo ra một lược đồ, được sử dụng bởi các thành phần đường ống khác. Tuy nhiên, lược đồ được tạo tự động là nỗ lực tối đa và chỉ cố gắng suy ra các thuộc tính cơ bản của dữ liệu. Dự kiến ​​rằng các nhà phát triển sẽ xem xét và sửa đổi nó khi cần thiết.

Lược đồ đã sửa đổi có thể được đưa trở lại đường dẫn bằng cách sử dụng thành phần ImportSchemaGen. Thành phần SchemaGen để tạo lược đồ ban đầu có thể bị xóa và tất cả các thành phần hạ lưu có thể sử dụng đầu ra của ImportSchemaGen. Nó cũng được khuyến khích để thêm ExampleValidator sử dụng giản đồ nhập khẩu để kiểm tra dữ liệu huấn luyện liên tục.

Xác thực dữ liệu SchemaGen và TensorFlow

SchemaGen làm cho sử dụng rộng rãi TensorFlow Data Validation để suy luận về một sơ đồ.

Sử dụng thành phần SchemaGen

Đối với việc tạo lược đồ ban đầu

Một thành phần đường dẫn SchemaGen thường rất dễ triển khai và yêu cầu ít tùy chỉnh. Mã điển hình trông như thế này:

schema_gen = tfx.components.SchemaGen(
    statistics=stats_gen.outputs['statistics'])

Thông tin chi tiết có sẵn trong các tài liệu tham khảo SchemaGen API .

Đối với việc nhập lược đồ đã xem xét

Thêm thành phần ImportSchemaGen vào đường ống để đưa định nghĩa lược đồ đã xem xét vào đường ống.

schema_gen = tfx.components.ImportSchemaGen(
    schema_file='/some/path/schema.pbtxt')

Các schema_file phải là một đường dẫn đầy đủ đến tập tin văn bản protobuf.

Thông tin chi tiết có sẵn trong các tài liệu tham khảo ImportSchemaGen API .