Xác thực dữ liệu TensorFlow (TFDV) là một thư viện để khám phá và xác thực dữ liệu học máy. Nó được thiết kế để có khả năng mở rộng cao và hoạt động tốt với TensorFlow và TensorFlow Extended (TFX) .
Xác thực dữ liệu TF bao gồm:
- Tính toán có thể mở rộng số liệu thống kê tóm tắt của dữ liệu đào tạo và kiểm tra.
- Tích hợp với trình xem để phân phối và thống kê dữ liệu, cũng như so sánh các khía cạnh của các cặp tính năng ( Facets )
- Tạo lược đồ dữ liệu tự động để mô tả những kỳ vọng về dữ liệu như các giá trị, phạm vi và từ vựng bắt buộc
- Trình xem lược đồ để giúp bạn kiểm tra lược đồ.
- Phát hiện bất thường để xác định các điểm bất thường, chẳng hạn như tính năng bị thiếu, giá trị ngoài phạm vi hoặc loại tính năng sai, v.v.
- Trình xem các điểm bất thường để bạn có thể xem những tính năng nào có điểm bất thường và tìm hiểu thêm để sửa chúng.
Để biết hướng dẫn sử dụng TFDV, hãy xem hướng dẫn bắt đầu và dùng thử sổ ghi chép mẫu . Một số kỹ thuật được triển khai trong TFDV được mô tả trong tài liệu kỹ thuật được xuất bản trên SysML'19 .
Cài đặt từ PyPI
Cách cài đặt TFDV được khuyến nghị là sử dụng gói PyPI :
pip install tensorflow-data-validation
Gói hàng đêm
TFDV cũng lưu trữ các gói hàng đêm trên Google Cloud. Để cài đặt gói hàng đêm mới nhất, vui lòng sử dụng lệnh sau:
export TFX_DEPENDENCY_SELECTOR=NIGHTLY
pip install --extra-index-url https://pypi-nightly.tensorflow.org/simple tensorflow-data-validation
Điều này sẽ cài đặt các gói hàng đêm cho các phần phụ thuộc chính của TFDV như Siêu dữ liệu TensorFlow (TFMD) và Thư viện chia sẻ cơ bản TFX (TFX-BSL).
Đôi khi TFDV sử dụng những thay đổi gần đây nhất của các phần phụ thuộc đó chưa được phát hành. Vì điều này, sẽ an toàn hơn khi sử dụng các phiên bản hàng đêm của các thư viện phụ thuộc đó khi sử dụng TFDV hàng đêm. Xuất biến môi trường TFX_DEPENDENCY_SELECTOR
để làm như vậy.
Xây dựng với Docker
Đây là cách được khuyến nghị để xây dựng TFDV trong Linux và được thử nghiệm liên tục tại Google.
1. Cài đặt Docker
Trước tiên hãy cài đặt docker
và docker-compose
bằng cách làm theo hướng dẫn: docker ; docker-compose .
2. Sao chép kho lưu trữ TFDV
git clone https://github.com/tensorflow/data-validation
cd data-validation
Lưu ý rằng các hướng dẫn này sẽ cài đặt nhánh chính mới nhất của Xác thực dữ liệu TensorFlow. Nếu bạn muốn cài đặt một nhánh cụ thể (chẳng hạn như nhánh phát hành), hãy chuyển -b <branchname>
vào lệnh git clone
.
3. Xây dựng gói pip
Sau đó, chạy lệnh sau tại thư mục gốc của dự án:
sudo docker-compose build manylinux2010
sudo docker-compose run -e PYTHON_VERSION=${PYTHON_VERSION} manylinux2010
trong đó PYTHON_VERSION
là một trong {39, 310, 311}
.
Một bánh xe sẽ được sản xuất dưới dist/
.
4. Cài đặt gói pip
pip install dist/*.whl
Xây dựng từ nguồn
1. Điều kiện tiên quyết
Để biên dịch và sử dụng TFDV, bạn cần thiết lập một số điều kiện tiên quyết.
Cài đặt NumPy
Nếu NumPy chưa được cài đặt trên hệ thống của bạn, hãy cài đặt nó ngay bây giờ bằng cách làm theo các hướng dẫn sau .
Cài đặt Bazel
Nếu Bazel chưa được cài đặt trên hệ thống của bạn, hãy cài đặt nó ngay bây giờ bằng cách làm theo các hướng dẫn sau .
2. Sao chép kho lưu trữ TFDV
git clone https://github.com/tensorflow/data-validation
cd data-validation
Lưu ý rằng các hướng dẫn này sẽ cài đặt nhánh chính mới nhất của Xác thực dữ liệu TensorFlow. Nếu bạn muốn cài đặt một nhánh cụ thể (chẳng hạn như nhánh phát hành), hãy chuyển -b <branchname>
vào lệnh git clone
.
3. Xây dựng gói pip
Bánh xe TFDV
phụ thuộc vào phiên bản Python - để xây dựng gói pip hoạt động cho một phiên bản Python cụ thể, hãy sử dụng tệp nhị phân Python đó để chạy:
python setup.py bdist_wheel
Bạn có thể tìm thấy tệp .whl
được tạo trong thư mục dist
.
4. Cài đặt gói pip
pip install dist/*.whl
Nền tảng được hỗ trợ
TFDV được thử nghiệm trên các hệ điều hành 64-bit sau:
- macOS 12.5 (Monterey) trở lên.
- Ubuntu 20.04 trở lên.
Sự phụ thuộc đáng chú ý
TensorFlow là bắt buộc.
Cần có chùm tia Apache ; đó là cách hỗ trợ tính toán phân tán hiệu quả. Theo mặc định, Apache Beam chạy ở chế độ cục bộ nhưng cũng có thể chạy ở chế độ phân tán bằng cách sử dụng Google Cloud Dataflow và các trình chạy Apache Beam khác.
Mũi tên Apache cũng được yêu cầu. TFDV sử dụng Mũi tên để biểu diễn dữ liệu nội bộ nhằm tận dụng các hàm gọn gàng được vector hóa.
Phiên bản tương thích
Bảng sau đây hiển thị các phiên bản gói tương thích với nhau. Điều này được xác định bởi khung thử nghiệm của chúng tôi, nhưng các kết hợp chưa được kiểm tra khác cũng có thể hoạt động.
xác thực dữ liệu tenorflow | chùm tia Apache [gcp] | pyarrow | dòng chảy căng | siêu dữ liệu tenorflow | biến đổi tenorflow | tfx-bsl |
---|---|---|---|---|---|---|
Bậc thầy GitHub | 2.47.0 | 10.0.0 | hàng đêm (1.x/2.x) | 1.15.0 | không có | 1.15.1 |
1.15.1 | 2.47.0 | 10.0.0 | 2,15 | 1.15.0 | không có | 1.15.1 |
1.15.0 | 2.47.0 | 10.0.0 | 2,15 | 1.15.0 | không có | 1.15.0 |
1.14.0 | 2.47.0 | 10.0.0 | 2.13 | 1.14.0 | không có | 1.14.0 |
1.13.0 | 2.40.0 | 6.0.0 | 2.12 | 1.13.1 | không có | 1.13.0 |
1.12.0 | 2.40.0 | 6.0.0 | 2.11 | 1.12.0 | không có | 1.12.0 |
1.11.0 | 2.40.0 | 6.0.0 | 1,15 / 2,10 | 1.11.0 | không có | 1.11.0 |
1.10.0 | 2.40.0 | 6.0.0 | 1,15 / 2,9 | 1.10.0 | không có | 1.10.1 |
1.9.0 | 2.38.0 | 5.0.0 | 1,15 / 2,9 | 1.9.0 | không có | 1.9.0 |
1.8.0 | 2.38.0 | 5.0.0 | 1,15 / 2,8 | 1.8.0 | không có | 1.8.0 |
1.7.0 | 2.36.0 | 5.0.0 | 1,15 / 2,8 | 1.7.0 | không có | 1.7.0 |
1.6.0 | 2.35.0 | 5.0.0 | 1,15 / 2,7 | 1.6.0 | không có | 1.6.0 |
1.5.0 | 2.34.0 | 2.0.0 | 1,15 / 2,7 | 1.5.0 | không có | 1.5.0 |
1.4.0 | 2.32.0 | 2.0.0 | 1,15 / 2,6 | 1.4.0 | không có | 1.4.0 |
1.3.0 | 2.32.0 | 2.0.0 | 1,15 / 2,6 | 1.2.0 | không có | 1.3.0 |
1.2.0 | 2.31.0 | 2.0.0 | 1,15 / 2,5 | 1.2.0 | không có | 1.2.0 |
1.1.1 | 2.29.0 | 2.0.0 | 1,15 / 2,5 | 1.1.0 | không có | 1.1.1 |
1.1.0 | 2.29.0 | 2.0.0 | 1,15 / 2,5 | 1.1.0 | không có | 1.1.0 |
1.0.0 | 2.29.0 | 2.0.0 | 1,15 / 2,5 | 1.0.0 | không có | 1.0.0 |
0,30,0 | 2.28.0 | 2.0.0 | 1,15 / 2,4 | 0,30,0 | không có | 0,30,0 |
0,29,0 | 2.28.0 | 2.0.0 | 1,15 / 2,4 | 0,29,0 | không có | 0,29,0 |
0,28,0 | 2.28.0 | 2.0.0 | 1,15 / 2,4 | 0,28,0 | không có | 0,28,1 |
0,27,0 | 2.27.0 | 2.0.0 | 1,15 / 2,4 | 0,27,0 | không có | 0,27,0 |
0,26,1 | 2.28.0 | 0.17.0 | 1,15 / 2,3 | 0,26,0 | 0,26,0 | 0,26,0 |
0,26,0 | 2.25.0 | 0.17.0 | 1,15 / 2,3 | 0,26,0 | 0,26,0 | 0,26,0 |
0,25,0 | 2.25.0 | 0.17.0 | 1,15 / 2,3 | 0,25,0 | 0,25,0 | 0,25,0 |
0,24,1 | 2.24.0 | 0.17.0 | 1,15 / 2,3 | 0,24,0 | 0,24,1 | 0,24,1 |
0,24,0 | 2.23.0 | 0.17.0 | 1,15 / 2,3 | 0,24,0 | 0,24,0 | 0,24,0 |
0,23,1 | 2.24.0 | 0.17.0 | 1,15 / 2,3 | 0,23,0 | 0,23,0 | 0,23,0 |
0,23,0 | 2.23.0 | 0.17.0 | 1,15 / 2,3 | 0,23,0 | 0,23,0 | 0,23,0 |
0,22,2 | 2.20.0 | 0.16.0 | 1,15 / 2,2 | 0,22,0 | 0,22,0 | 0,22,1 |
0,22,1 | 2.20.0 | 0.16.0 | 1,15 / 2,2 | 0,22,0 | 0,22,0 | 0,22,1 |
0,22,0 | 2.20.0 | 0.16.0 | 1,15 / 2,2 | 0,22,0 | 0,22,0 | 0,22,0 |
0,21,5 | 2.17.0 | 0,15,0 | 1,15 / 2,1 | 0,21,0 | 0,21,1 | 0,21,3 |
0,21,4 | 2.17.0 | 0,15,0 | 1,15 / 2,1 | 0,21,0 | 0,21,1 | 0,21,3 |
0,21,2 | 2.17.0 | 0,15,0 | 1,15 / 2,1 | 0,21,0 | 0,21,0 | 0,21,0 |
0,21,1 | 2.17.0 | 0,15,0 | 1,15 / 2,1 | 0,21,0 | 0,21,0 | 0,21,0 |
0,21,0 | 2.17.0 | 0,15,0 | 1,15 / 2,1 | 0,21,0 | 0,21,0 | 0,21,0 |
0,15,0 | 2.16.0 | 0.14.0 | 1,15 / 2,0 | 0,15,0 | 0,15,0 | 0,15,0 |
0.14.1 | 2.14.0 | 0.14.0 | 1.14 | 0.14.0 | 0.14.0 | không có |
0.14.0 | 2.14.0 | 0.14.0 | 1.14 | 0.14.0 | 0.14.0 | không có |
0.13.1 | 2.11.0 | không có | 1.13 | 0.12.1 | 0.13.0 | không có |
0.13.0 | 2.11.0 | không có | 1.13 | 0.12.1 | 0.13.0 | không có |
0.12.0 | 2.10.0 | không có | 1.12 | 0.12.1 | 0.12.0 | không có |
0.11.0 | 2.8.0 | không có | 1.11 | 0.9.0 | 0.11.0 | không có |
0.9.0 | 2.6.0 | không có | 1.9 | không có | không có | không có |
Câu hỏi
Vui lòng gửi bất kỳ câu hỏi nào về cách làm việc với Xác thực dữ liệu TF tới Tràn ngăn xếp bằng cách sử dụng thẻ xác thực dữ liệu tensorflow .