টেনসরফ্লো ডেটা যাচাইকরণ

GitHub এ দেখুন

TensorFlow ডেটা ভ্যালিডেশন (TFDV) হল মেশিন লার্নিং ডেটা অন্বেষণ এবং যাচাই করার জন্য একটি লাইব্রেরি। এটিকে অত্যন্ত পরিমাপযোগ্য এবং টেনসরফ্লো এবং টেনসরফ্লো এক্সটেন্ডেড (টিএফএক্স) এর সাথে ভালভাবে কাজ করার জন্য ডিজাইন করা হয়েছে।

TF ডেটা যাচাইকরণের মধ্যে রয়েছে:

  • প্রশিক্ষণ এবং পরীক্ষার ডেটার সারাংশ পরিসংখ্যানের পরিমাপযোগ্য গণনা।
  • ডেটা বন্টন এবং পরিসংখ্যানের জন্য দর্শকের সাথে একীকরণ, সেইসাথে বৈশিষ্ট্যগুলির জোড়ার দিকগত তুলনা ( ফ্যাসেট )
  • প্রয়োজনীয় মান, পরিসর এবং শব্দভান্ডারের মতো ডেটা সম্পর্কে প্রত্যাশাগুলি বর্ণনা করতে স্বয়ংক্রিয় ডেটা-স্কিমা জেনারেশন
  • স্কিমা পরিদর্শন করতে আপনাকে সাহায্য করার জন্য একটি স্কিমা ভিউয়ার৷
  • অসঙ্গতি শনাক্ত করতে অসঙ্গতি সনাক্তকরণ, যেমন অনুপস্থিত বৈশিষ্ট্য, সীমার বাইরের মান, বা ভুল বৈশিষ্ট্যের ধরন, কয়েকটি নাম।
  • একটি অসামঞ্জস্য দর্শক যাতে আপনি দেখতে পারেন কোন বৈশিষ্ট্যগুলিতে অসামঞ্জস্য রয়েছে এবং সেগুলি সংশোধন করার জন্য আরও শিখতে পারেন৷

TFDV ব্যবহারের নির্দেশাবলীর জন্য, শুরু করার নির্দেশিকাটি দেখুন এবং উদাহরণ নোটবুকটি ব্যবহার করে দেখুন। TFDV-তে বাস্তবায়িত কিছু কৌশল SysML'19-এ প্রকাশিত একটি প্রযুক্তিগত গবেষণাপত্রে বর্ণিত হয়েছে।

PyPI থেকে ইনস্টল করা হচ্ছে

TFDV ইনস্টল করার প্রস্তাবিত উপায় হল PyPI প্যাকেজ ব্যবহার করা:

pip install tensorflow-data-validation

রাত্রিকালীন প্যাকেজ

TFDV Google ক্লাউডে রাতের প্যাকেজগুলিও হোস্ট করে৷ সর্বশেষ রাতের প্যাকেজ ইনস্টল করতে, অনুগ্রহ করে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

export TFX_DEPENDENCY_SELECTOR=NIGHTLY
pip install --extra-index-url https://pypi-nightly.tensorflow.org/simple tensorflow-data-validation

এটি TFDV-এর প্রধান নির্ভরতা যেমন টেনসরফ্লো মেটাডেটা (TFMD) এবং TFX বেসিক শেয়ার্ড লাইব্রেরি (TFX-BSL) এর জন্য রাতের প্যাকেজগুলি ইনস্টল করবে।

কখনও কখনও TFDV সেই নির্ভরতাগুলির সাম্প্রতিক পরিবর্তনগুলি ব্যবহার করে, যা এখনও প্রকাশিত হয়নি। এই কারণে, রাত্রিকালীন TFDV ব্যবহার করার সময় এই নির্ভরশীল লাইব্রেরিগুলির রাত্রিকালীন সংস্করণগুলি ব্যবহার করা নিরাপদ। এটি করতে TFX_DEPENDENCY_SELECTOR এনভায়রনমেন্ট ভেরিয়েবল রপ্তানি করুন।

ডকার দিয়ে তৈরি করুন

এটি লিনাক্সের অধীনে TFDV তৈরি করার প্রস্তাবিত উপায়, এবং ক্রমাগত Google-এ পরীক্ষা করা হয়।

1. ডকার ইনস্টল করুন

অনুগ্রহ করে প্রথমে নির্দেশাবলী অনুসরণ করে docker এবং docker-compose ইনস্টল করুন: ডকার ; ডকার-কম্পোজ

2. TFDV সংগ্রহস্থল ক্লোন করুন

git clone https://github.com/tensorflow/data-validation
cd data-validation

মনে রাখবেন যে এই নির্দেশাবলী TensorFlow ডেটা যাচাইকরণের সর্বশেষ মাস্টার শাখা ইনস্টল করবে। আপনি যদি একটি নির্দিষ্ট শাখা (যেমন একটি প্রকাশ শাখা) ইনস্টল করতে চান, git clone কমান্ডে -b <branchname> পাস করুন।

3. পিপ প্যাকেজ তৈরি করুন

তারপরে, প্রকল্প রুটে নিম্নলিখিত চালান:

sudo docker-compose build manylinux2010
sudo docker-compose run -e PYTHON_VERSION=${PYTHON_VERSION} manylinux2010

যেখানে PYTHON_VERSION হল {39, 310, 311} এর মধ্যে একটি।

dist/ অধীনে একটি চাকা তৈরি করা হবে।

4. পিপ প্যাকেজ ইনস্টল করুন

pip install dist/*.whl

উৎস থেকে তৈরি করুন

1. পূর্বশর্ত

TFDV কম্পাইল এবং ব্যবহার করতে, আপনাকে কিছু পূর্বশর্ত সেট আপ করতে হবে।

NumPy ইনস্টল করুন

যদি আপনার সিস্টেমে NumPy ইনস্টল করা না থাকে, তাহলে এই নির্দেশাবলী অনুসরণ করে এটি এখনই ইনস্টল করুন।

Bazel ইনস্টল করুন

যদি আপনার সিস্টেমে Bazel ইনস্টল করা না থাকে, তাহলে এই নির্দেশাবলী অনুসরণ করে এটি এখনই ইনস্টল করুন।

2. TFDV সংগ্রহস্থল ক্লোন করুন

git clone https://github.com/tensorflow/data-validation
cd data-validation

মনে রাখবেন যে এই নির্দেশাবলী TensorFlow ডেটা যাচাইকরণের সর্বশেষ মাস্টার শাখা ইনস্টল করবে। আপনি যদি একটি নির্দিষ্ট শাখা (যেমন একটি প্রকাশ শাখা) ইনস্টল করতে চান, git clone কমান্ডে -b <branchname> পাস করুন।

3. পিপ প্যাকেজ তৈরি করুন

TFDV হুইল হল পাইথন সংস্করণ নির্ভর -- একটি নির্দিষ্ট পাইথন সংস্করণের জন্য কাজ করে এমন পিপ প্যাকেজ তৈরি করতে, সেই পাইথন বাইনারিটি চালানোর জন্য ব্যবহার করুন:

python setup.py bdist_wheel

আপনি dist সাবডিরেক্টরিতে জেনারেট করা .whl ফাইলটি খুঁজে পেতে পারেন।

4. পিপ প্যাকেজ ইনস্টল করুন

pip install dist/*.whl

সমর্থিত প্ল্যাটফর্ম

TFDV নিম্নলিখিত 64-বিট অপারেটিং সিস্টেমে পরীক্ষা করা হয়:

  • macOS 12.5 (Monterey) বা তার পরে।
  • উবুন্টু 20.04 বা তার পরে।

উল্লেখযোগ্য নির্ভরতা

টেনসরফ্লো প্রয়োজন।

অ্যাপাচি রশ্মি প্রয়োজন; এটি দক্ষ বিতরণ গণনা সমর্থিত যে উপায়. ডিফল্টরূপে, Apache Beam স্থানীয় মোডে চলে কিন্তু Google Cloud Dataflow এবং অন্যান্য Apache Beam রানার ব্যবহার করে বিতরণ করা মোডেও চলতে পারে।

Apache তীর এছাড়াও প্রয়োজন. TFDV ভেক্টরাইজড নম্পি ফাংশন ব্যবহার করার জন্য অভ্যন্তরীণভাবে ডেটা উপস্থাপন করতে তীর ব্যবহার করে।

সামঞ্জস্যপূর্ণ সংস্করণ

নিম্নলিখিত সারণী প্যাকেজ সংস্করণগুলি দেখায় যা একে অপরের সাথে সামঞ্জস্যপূর্ণ। এটি আমাদের পরীক্ষার কাঠামোর দ্বারা নির্ধারিত হয়, তবে অন্যান্য অ-পরীক্ষিত সমন্বয়গুলিও কাজ করতে পারে।

tensorflow-ডেটা-বৈধকরণ অ্যাপাচি-বিম [জিসিপি] পিয়ারো tensorflow tensorflow-metadata tensorflow-রূপান্তর tfx-bsl
গিটহাব মাস্টার 2.47.0 10.0.0 রাত্রিকালীন (1.x/2.x) 1.15.0 n/a 1.15.1
1.15.1 2.47.0 10.0.0 2.15 1.15.0 n/a 1.15.1
1.15.0 2.47.0 10.0.0 2.15 1.15.0 n/a 1.15.0
1.14.0 2.47.0 10.0.0 2.13 1.14.0 n/a 1.14.0
1.13.0 2.40.0 6.0.0 2.12 1.13.1 n/a 1.13.0
1.12.0 2.40.0 6.0.0 2.11 1.12.0 n/a 1.12.0
1.11.0 2.40.0 6.0.0 1.15 / 2.10 1.11.0 n/a 1.11.0
1.10.0 2.40.0 6.0.0 1.15 / 2.9 1.10.0 n/a 1.10.1
1.9.0 2.38.0 5.0.0 1.15 / 2.9 1.9.0 n/a 1.9.0
1.8.0 2.38.0 5.0.0 1.15 / 2.8 1.8.0 n/a 1.8.0
1.7.0 2.36.0 5.0.0 1.15 / 2.8 1.7.0 n/a 1.7.0
1.6.0 2.35.0 5.0.0 1.15 / 2.7 1.6.0 n/a 1.6.0
1.5.0 2.34.0 2.0.0 1.15 / 2.7 1.5.0 n/a 1.5.0
1.4.0 2.32.0 2.0.0 1.15 / 2.6 1.4.0 n/a 1.4.0
1.3.0 2.32.0 2.0.0 1.15 / 2.6 1.2.0 n/a 1.3.0
1.2.0 2.31.0 2.0.0 1.15 / 2.5 1.2.0 n/a 1.2.0
1.1.1 2.29.0 2.0.0 1.15 / 2.5 1.1.0 n/a 1.1.1
1.1.0 2.29.0 2.0.0 1.15 / 2.5 1.1.0 n/a 1.1.0
1.0.0 2.29.0 2.0.0 1.15 / 2.5 1.0.0 n/a 1.0.0
0.30.0 2.28.0 2.0.0 1.15 / 2.4 0.30.0 n/a 0.30.0
0.29.0 2.28.0 2.0.0 1.15 / 2.4 0.29.0 n/a 0.29.0
0.28.0 2.28.0 2.0.0 1.15 / 2.4 0.28.0 n/a 0.28.1
0.27.0 2.27.0 2.0.0 1.15 / 2.4 0.27.0 n/a 0.27.0
0.26.1 2.28.0 0.17.0 1.15 / 2.3 0.26.0 0.26.0 0.26.0
0.26.0 2.25.0 0.17.0 1.15 / 2.3 0.26.0 0.26.0 0.26.0
0.25.0 2.25.0 0.17.0 1.15 / 2.3 0.25.0 0.25.0 0.25.0
0.24.1 2.24.0 0.17.0 1.15 / 2.3 0.24.0 0.24.1 0.24.1
0.24.0 2.23.0 0.17.0 1.15 / 2.3 0.24.0 0.24.0 0.24.0
0.23.1 2.24.0 0.17.0 1.15 / 2.3 0.23.0 0.23.0 0.23.0
0.23.0 2.23.0 0.17.0 1.15 / 2.3 0.23.0 0.23.0 0.23.0
0.22.2 2.20.0 0.16.0 1.15 / 2.2 0.22.0 0.22.0 0.22.1
0.22.1 2.20.0 0.16.0 1.15 / 2.2 0.22.0 0.22.0 0.22.1
0.22.0 2.20.0 0.16.0 1.15 / 2.2 0.22.0 0.22.0 0.22.0
0.21.5 2.17.0 0.15.0 1.15 / 2.1 0.21.0 0.21.1 0.21.3
0.21.4 2.17.0 0.15.0 1.15 / 2.1 0.21.0 0.21.1 0.21.3
0.21.2 2.17.0 0.15.0 1.15 / 2.1 0.21.0 0.21.0 0.21.0
0.21.1 2.17.0 0.15.0 1.15 / 2.1 0.21.0 0.21.0 0.21.0
0.21.0 2.17.0 0.15.0 1.15 / 2.1 0.21.0 0.21.0 0.21.0
0.15.0 2.16.0 0.14.0 1.15 / 2.0 0.15.0 0.15.0 0.15.0
0.14.1 2.14.0 0.14.0 1.14 0.14.0 0.14.0 n/a
0.14.0 2.14.0 0.14.0 1.14 0.14.0 0.14.0 n/a
0.13.1 2.11.0 n/a 1.13 0.12.1 0.13.0 n/a
0.13.0 2.11.0 n/a 1.13 0.12.1 0.13.0 n/a
0.12.0 2.10.0 n/a 1.12 0.12.1 0.12.0 n/a
0.11.0 2.8.0 n/a 1.11 0.9.0 0.11.0 n/a
0.9.0 2.6.0 n/a 1.9 n/a n/a n/a

প্রশ্ন

টেনসরফ্লো-ডেটা-ভ্যালিডেশন ট্যাগ ব্যবহার করে স্ট্যাক ওভারফ্লোতে TF ডেটা যাচাইকরণের সাথে কাজ করার বিষয়ে যেকোনো প্রশ্ন করুন।