Phân đoạn

Phân đoạn hình ảnh là quá trình phân vùng hình ảnh kỹ thuật số thành nhiều phân đoạn (bộ pixel, còn được gọi là đối tượng hình ảnh). Mục tiêu của phân đoạn là đơn giản hóa và/hoặc thay đổi cách thể hiện hình ảnh thành thứ gì đó có ý nghĩa hơn và dễ phân tích hơn.

Hình ảnh sau đây hiển thị đầu ra của mô hình phân đoạn hình ảnh trên Android. Mô hình sẽ tạo mặt nạ trên đối tượng mục tiêu với độ chính xác cao.

Bắt đầu

Nếu bạn mới sử dụng TensorFlow Lite và đang làm việc với Android hoặc iOS, bạn nên khám phá các ứng dụng mẫu sau để có thể giúp bạn bắt đầu.

Bạn có thể tận dụng API sẵn dùng từ Thư viện tác vụ TensorFlow Lite để tích hợp các mô hình phân đoạn hình ảnh chỉ trong một vài dòng mã. Bạn cũng có thể tích hợp mô hình bằng cách sử dụng API Java của Trình thông dịch TensorFlow Lite .

Ví dụ về Android bên dưới minh họa cách triển khai cho cả hai phương thức lần lượt là lib_task_apilib_interpreter .

Xem ví dụ về Android

Xem ví dụ về iOS

Nếu bạn đang sử dụng nền tảng không phải Android hoặc iOS hoặc bạn đã quen với API TensorFlow Lite , bạn có thể tải xuống mô hình phân đoạn hình ảnh ban đầu của chúng tôi.

Tải xuống mô hình khởi đầu

Mô tả về mô hình

DeepLab là một mô hình học sâu hiện đại để phân đoạn hình ảnh theo ngữ nghĩa, trong đó mục tiêu là gán các nhãn ngữ nghĩa (ví dụ: người, chó, mèo) cho mọi pixel trong hình ảnh đầu vào.

Làm thế nào nó hoạt động

Phân đoạn hình ảnh theo ngữ nghĩa dự đoán liệu mỗi pixel của hình ảnh có được liên kết với một lớp nhất định hay không. Điều này trái ngược với phát hiện đối tượng , phát hiện các đối tượng trong vùng hình chữ nhật và phân loại hình ảnh , phân loại hình ảnh tổng thể.

Việc triển khai hiện tại bao gồm các tính năng sau:

  1. DeepLabv1: Chúng tôi sử dụng tích chập để kiểm soát rõ ràng độ phân giải mà tại đó các phản hồi của tính năng được tính toán trong Mạng thần kinh chuyển đổi sâu.
  2. DeepLabv2: Chúng tôi sử dụng tính năng tổng hợp kim tự tháp không gian (ASPP) để phân chia mạnh mẽ các đối tượng ở nhiều tỷ lệ với các bộ lọc ở nhiều tốc độ lấy mẫu và trường nhìn hiệu quả.
  3. DeepLabv3: Chúng tôi tăng cường mô-đun ASPP bằng tính năng cấp độ hình ảnh [5, 6] để thu thập thông tin ở phạm vi dài hơn. Chúng tôi cũng bao gồm các tham số chuẩn hóa hàng loạt [7] để tạo điều kiện thuận lợi cho việc đào tạo. Đặc biệt, chúng tôi áp dụng tích chập atrous để trích xuất các đặc điểm đầu ra ở các bước đầu ra khác nhau trong quá trình đào tạo và đánh giá, điều này cho phép đào tạo BN một cách hiệu quả ở bước đầu ra = 16 và đạt hiệu suất cao ở bước đầu ra = 8 trong quá trình đánh giá.
  4. DeepLabv3+: Chúng tôi mở rộng DeepLabv3 để bao gồm mô-đun giải mã đơn giản nhưng hiệu quả nhằm tinh chỉnh kết quả phân đoạn, đặc biệt là dọc theo ranh giới đối tượng. Hơn nữa, trong cấu trúc bộ mã hóa-giải mã này, người ta có thể tùy ý kiểm soát độ phân giải của các tính năng bộ mã hóa được trích xuất bằng cách tích chập để cân bằng độ chính xác và thời gian chạy.

Điểm chuẩn hiệu suất

Số điểm chuẩn hiệu suất được tạo bằng công cụ được mô tả ở đây .

Tên mẫu Kích thước mô hình Thiết bị GPU CPU
Deeplab v3 2,7 Mb Pixel 3 (Android 10) 16 mili giây 37 mili giây*
Pixel 4 (Android 10) 20 mili giây 23 mili giây*
iPhone XS (iOS 12.4.1) 16 mili giây 25 mili giây**

* 4 chủ đề được sử dụng.

** 2 luồng được sử dụng trên iPhone để có kết quả hoạt động tốt nhất.

Đọc thêm và tài nguyên