체크포인터 및 PolicySaver

tf_agents.utils.common.Checkpointer 저장 / 로컬 스토리지에서 /로 훈련 상태, 정책 상태 및 replay_buffer 상태를로드 할 수있는 유틸리티입니다.

tf_agents.policies.policy_saver.PolicySaver / 만로드 정책을 저장하는 도구이며,보다 가벼운 Checkpointer . 당신은 사용할 수 있습니다 PolicySaver 정책을 만든 코드에 대한 지식 없이도뿐만 아니라 모델을 배포 할 수 있습니다.

이 튜토리얼에서, 우리는 다음 사용 모델을 양성하는 DQN를 사용합니다 CheckpointerPolicySaver 우리가 저장하고 상호 작용하는 방법으로 주와 모델을로드 할 수있는 방법을 보여줍니다. 우리가 TF2.0의 새로운 saved_model 공구와 형식을 사용합니다 PolicySaver .


다음 종속성을 설치하지 않은 경우 다음을 실행합니다.

sudo apt-get update
sudo apt-get install -y xvfb ffmpeg python-opengl
pip install pyglet
pip install 'imageio==2.4.0'
pip install 'xvfbwrapper==0.2.9'
pip install tf-agents[reverb]
from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

import base64
import imageio
import io
import matplotlib
import matplotlib.pyplot as plt
import os
import shutil
import tempfile
import tensorflow as tf
import zipfile
import IPython

  from google.colab import files
except ImportError:
  files = None
from tf_agents.agents.dqn import dqn_agent
from tf_agents.drivers import dynamic_step_driver
from tf_agents.environments import suite_gym
from tf_agents.environments import tf_py_environment
from tf_agents.eval import metric_utils
from tf_agents.metrics import tf_metrics
from tf_agents.networks import q_network
from tf_agents.policies import policy_saver
from tf_agents.policies import py_tf_eager_policy
from tf_agents.policies import random_tf_policy
from tf_agents.replay_buffers import tf_uniform_replay_buffer
from tf_agents.trajectories import trajectory
from tf_agents.utils import common

tempdir = os.getenv("TEST_TMPDIR", tempfile.gettempdir())
# Set up a virtual display for rendering OpenAI gym environments.
import xvfbwrapper
xvfbwrapper.Xvfb(1400, 900, 24).start()

DQN 에이전트

이전 colab에서와 같이 DQN 에이전트를 설정할 것입니다. 세부 정보는 이 colab의 핵심 부분이 아니므로 기본적으로 숨겨져 있지만 '코드 표시'를 클릭하여 세부 정보를 볼 수 있습니다.


env_name = "CartPole-v1"

collect_steps_per_iteration = 100
replay_buffer_capacity = 100000

fc_layer_params = (100,)

batch_size = 64
learning_rate = 1e-3
log_interval = 5

num_eval_episodes = 10
eval_interval = 1000


train_py_env = suite_gym.load(env_name)
eval_py_env = suite_gym.load(env_name)

train_env = tf_py_environment.TFPyEnvironment(train_py_env)
eval_env = tf_py_environment.TFPyEnvironment(eval_py_env)


데이터 수집

WARNING:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.7/site-packages/tensorflow/python/autograph/impl/api.py:383: ReplayBuffer.get_next (from tf_agents.replay_buffers.replay_buffer) is deprecated and will be removed in a future version.
Instructions for updating:
Use `as_dataset(..., single_deterministic_pass=False) instead.

에이전트 교육

비디오 생성

동영상을 생성하여 정책의 성능을 확인하십시오.

print ('global_step:')
print (global_step)
run_episodes_and_create_video(agent.policy, eval_env, eval_py_env)
<tf.Variable 'global_step:0' shape=() dtype=int64, numpy=0>


Checkpointer 및 PolicySaver 설정

이제 Checkpointer와 PolicySaver를 사용할 준비가 되었습니다.


checkpoint_dir = os.path.join(tempdir, 'checkpoint')
train_checkpointer = common.Checkpointer(

정책 보호기

policy_dir = os.path.join(tempdir, 'policy')
tf_policy_saver = policy_saver.PolicySaver(agent.policy)
2022-01-20 12:15:14.054931: W tensorflow/python/util/util.cc:368] Sets are not currently considered sequences, but this may change in the future, so consider avoiding using them.

한 번의 반복 훈련

print('Training one iteration....')
Training one iteration....
WARNING:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.7/site-packages/tensorflow/python/util/dispatch.py:1096: calling foldr_v2 (from tensorflow.python.ops.functional_ops) with back_prop=False is deprecated and will be removed in a future version.
Instructions for updating:
back_prop=False is deprecated. Consider using tf.stop_gradient instead.
Instead of:
results = tf.foldr(fn, elems, back_prop=False)
results = tf.nest.map_structure(tf.stop_gradient, tf.foldr(fn, elems))
WARNING:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.7/site-packages/tensorflow/python/util/dispatch.py:1096: calling foldr_v2 (from tensorflow.python.ops.functional_ops) with back_prop=False is deprecated and will be removed in a future version.
Instructions for updating:
back_prop=False is deprecated. Consider using tf.stop_gradient instead.
Instead of:
results = tf.foldr(fn, elems, back_prop=False)
results = tf.nest.map_structure(tf.stop_gradient, tf.foldr(fn, elems))
iteration: 1 loss: 1.0214563608169556

체크포인트에 저장


체크포인트 복원

이것이 작동하려면 체크포인트가 생성되었을 때와 같은 방식으로 전체 객체 세트를 다시 생성해야 합니다.

global_step = tf.compat.v1.train.get_global_step()

또한 정책을 저장하고 위치로 내보내기

WARNING:absl:Function `function_with_signature` contains input name(s) 0/step_type, 0/reward, 0/discount, 0/observation with unsupported characters which will be renamed to step_type, reward, discount, observation in the SavedModel.
WARNING:absl:Found untraced functions such as QNetwork_layer_call_fn, QNetwork_layer_call_and_return_conditional_losses, EncodingNetwork_layer_call_fn, EncodingNetwork_layer_call_and_return_conditional_losses, dense_1_layer_call_fn while saving (showing 5 of 25). These functions will not be directly callable after loading.
INFO:tensorflow:Assets written to: /tmp/policy/assets
/tmpfs/src/tf_docs_env/lib/python3.7/site-packages/tensorflow/python/saved_model/nested_structure_coder.py:561: UserWarning: Encoding a StructuredValue with type tf_agents.policies.greedy_policy.DeterministicWithLogProb_ACTTypeSpec; loading this StructuredValue will require that this type be imported and registered.
  "imported and registered." % type_spec_class_name)
INFO:tensorflow:Assets written to: /tmp/policy/assets

정책을 생성하는 데 사용된 에이전트 또는 네트워크에 대한 지식 없이도 정책을 로드할 수 있습니다. 이렇게 하면 정책을 훨씬 쉽게 배포할 수 있습니다.

저장된 정책을 로드하고 작동 방식을 확인합니다.

saved_policy = tf.saved_model.load(policy_dir)
run_episodes_and_create_video(saved_policy, eval_env, eval_py_env)


내보내기 및 가져오기

colab의 나머지 부분은 체크포인터 및 정책 디렉토리를 내보내거나 가져오는 데 도움이 될 것입니다. 이를 통해 나중에 학습을 계속하고 다시 학습할 필요 없이 모델을 배포할 수 있습니다.

이제 'Train one iteration'으로 돌아가 나중에 차이점을 이해할 수 있도록 몇 번 더 훈련할 수 있습니다. 약간 더 나은 결과를 보기 시작하면 아래를 계속하십시오.

zip 파일 생성 및 zip 파일 업로드(코드를 보려면 두 번 클릭)

검사점 디렉터리에서 압축 파일을 만듭니다.

checkpoint_zip_filename = create_zip_file(checkpoint_dir, os.path.join(tempdir, 'exported_cp'))

zip 파일을 다운로드합니다.

if files is not None:
  files.download(checkpoint_zip_filename) # try again if this fails: https://github.com/googlecolab/colabtools/issues/469

일정 시간(10~15회) 훈련 후 체크포인트 zip 파일을 다운로드하고 "런타임 > 다시 시작 및 모두 실행"으로 이동하여 훈련을 재설정하고 이 셀로 돌아옵니다. 이제 다운로드한 zip 파일을 업로드하고 교육을 계속할 수 있습니다.

global_step = tf.compat.v1.train.get_global_step()

체크포인트 디렉토리를 업로드했으면 '1회 반복 학습'으로 돌아가서 학습을 계속하거나 '비디오 생성'으로 돌아가 로드된 정책의 성능을 확인하십시오.

또는 정책(모델)을 저장하고 복원할 수 있습니다. 체크포인터와 달리 학습을 계속할 수는 없지만 모델을 배포할 수는 있습니다. 다운로드한 파일은 체크포인터보다 훨씬 작습니다.

policy_zip_filename = create_zip_file(policy_dir, os.path.join(tempdir, 'exported_policy'))
WARNING:absl:Function `function_with_signature` contains input name(s) 0/step_type, 0/reward, 0/discount, 0/observation with unsupported characters which will be renamed to step_type, reward, discount, observation in the SavedModel.
WARNING:absl:Found untraced functions such as QNetwork_layer_call_fn, QNetwork_layer_call_and_return_conditional_losses, EncodingNetwork_layer_call_fn, EncodingNetwork_layer_call_and_return_conditional_losses, dense_1_layer_call_fn while saving (showing 5 of 25). These functions will not be directly callable after loading.
INFO:tensorflow:Assets written to: /tmp/policy/assets
/tmpfs/src/tf_docs_env/lib/python3.7/site-packages/tensorflow/python/saved_model/nested_structure_coder.py:561: UserWarning: Encoding a StructuredValue with type tf_agents.policies.greedy_policy.DeterministicWithLogProb_ACTTypeSpec; loading this StructuredValue will require that this type be imported and registered.
  "imported and registered." % type_spec_class_name)
INFO:tensorflow:Assets written to: /tmp/policy/assets
if files is not None:
  files.download(policy_zip_filename) # try again if this fails: https://github.com/googlecolab/colabtools/issues/469

다운로드한 정책 디렉터리(exported_policy.zip)를 업로드하고 저장된 정책이 어떻게 수행되는지 확인합니다.

saved_policy = tf.saved_model.load(policy_dir)
run_episodes_and_create_video(saved_policy, eval_env, eval_py_env)


저장된 모델PyTFEAgerPolicy

당신이 TF 정책을 사용하지 않으려면, 당신은 또한의 사용을 통해 파이썬 ENV와 직접 saved_model을 사용할 수 있습니다 py_tf_eager_policy.SavedModelPyTFEagerPolicy .

Eager 모드가 활성화된 경우에만 작동합니다.

eager_py_policy = py_tf_eager_policy.SavedModelPyTFEagerPolicy(
    policy_dir, eval_py_env.time_step_spec(), eval_py_env.action_spec())

# Note that we're passing eval_py_env not eval_env.
run_episodes_and_create_video(eager_py_policy, eval_py_env, eval_py_env)


정책을 TFLite로 변환

참조 TensorFlow 라이트 컨버터를 자세한 내용은.

converter = tf.lite.TFLiteConverter.from_saved_model(policy_dir, signature_keys=["action"])
tflite_policy = converter.convert()
with open(os.path.join(tempdir, 'policy.tflite'), 'wb') as f:
2022-01-20 12:15:59.646042: W tensorflow/compiler/mlir/lite/python/tf_tfl_flatbuffer_helpers.cc:363] Ignored output_format.
2022-01-20 12:15:59.646082: W tensorflow/compiler/mlir/lite/python/tf_tfl_flatbuffer_helpers.cc:366] Ignored drop_control_dependency.
2022-01-20 12:15:59.646088: W tensorflow/compiler/mlir/lite/python/tf_tfl_flatbuffer_helpers.cc:372] Ignored change_concat_input_ranges.
WARNING:absl:Buffer deduplication procedure will be skipped when flatbuffer library is not properly loaded

TFLite 모델에서 추론 실행

참조 TensorFlow 라이트 추론을 자세한 내용은.

import numpy as np
interpreter = tf.lite.Interpreter(os.path.join(tempdir, 'policy.tflite'))

policy_runner = interpreter.get_signature_runner()
{'0/discount': 1, '0/observation': 2, '0/reward': 3, '0/step_type': 0}
{'action': array([0])}