Tham gia cùng chúng tôi tại DevFest cho Ukraine Ngày 14-15 tháng 6 Trực tuyến Đăng ký ngay

Thành phần đường ống StatisticsGen TFX

Thành phần đường ống StatisticsGen TFX tạo ra các thống kê tính năng trên cả dữ liệu đào tạo và phục vụ, có thể được sử dụng bởi các thành phần đường ống khác. StatisticsGen sử dụng Beam để chia tỷ lệ thành tập dữ liệu lớn.

  • Tiêu dùng: tập dữ liệu được tạo bởi một thành phần đường ống ExampleGen.
  • Emits: thống kê tập dữ liệu.

StatisticsGen và TensorFlow Data Validation

StatisticsGen làm cho sử dụng rộng rãi TensorFlow Data Validation để tạo thống kê từ dữ liệu của bạn.

Sử dụng thành phần StatsGen

Thành phần đường ống StatisticsGen thường rất dễ triển khai và yêu cầu ít tùy chỉnh. Mã điển hình trông như thế này:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

Sử dụng thành phần StatsGen với lược đồ

Đối với lần chạy đầu tiên của một đường ống, đầu ra của StatisticsGen sẽ được sử dụng để suy ra một lược đồ. Tuy nhiên, trong các lần chạy tiếp theo, bạn có thể có một lược đồ được sắp xếp theo cách thủ công chứa thông tin bổ sung về tập dữ liệu của bạn. Bằng cách cung cấp lược đồ này cho StatisticsGen, TFDV có thể cung cấp các số liệu thống kê hữu ích hơn dựa trên các thuộc tính đã khai báo của tập dữ liệu của bạn.

Trong cài đặt này, bạn sẽ gọi StatisticsGen với một lược đồ đã được quản lý đã được nhập bởi một ImporterNode như sau:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

Tạo một lược đồ được sắp xếp

Schema trong TFX là một thể hiện của các TensorFlow Metadata Schema proto . Điều này có thể được bao gồm trong định dạng văn bản từ đầu. Tuy nhiên, nó là dễ dàng hơn để sử dụng giản đồ suy ra được sản xuất bởi SchemaGen như là một điểm khởi đầu. Khi SchemaGen thành phần đã được thực hiện, lược đồ sẽ được đặt dưới gốc đường ống trong đường dẫn sau:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

Nơi <artifact_id> đại diện cho một ID duy nhất cho phiên bản này của lược đồ trong MLMD. Proto schema này sau đó có thể được sửa đổi để trao đổi thông tin về dữ liệu mà không thể được suy ra đáng tin cậy, mà sẽ làm cho đầu ra của StatisticsGen hữu ích hơn và xác nhận thực hiện trong ExampleValidator phần nghiêm ngặt hơn.

Thông tin chi tiết có sẵn trong các tài liệu tham khảo StatisticsGen API .