è un programma di utilità per salvare / caricare lo stato di formazione, la politica dello stato, e lo stato replay_buffer a / da un archivio locale.
è uno strumento per salvare / caricare solo la politica, ed è più leggero di Checkpointer
. È possibile utilizzare PolicySaver
per implementare il modello anche senza alcuna conoscenza del codice che ha creato la politica.
In questo tutorial, useremo DQN per addestrare un modello, quindi utilizzare Checkpointer
e PolicySaver
per mostrare come è possibile memorizzare e caricare gli stati e il modello in modo interattivo. Nota che useremo nuove attrezzature saved_model di TF2.0 e formato per PolicySaver
Se non hai installato le seguenti dipendenze, esegui:
sudo apt-get update
sudo apt-get install -y xvfb ffmpeg python-opengl
pip install pyglet
pip install 'imageio==2.4.0'
pip install 'xvfbwrapper==0.2.9'
pip install tf-agents[reverb]
from __future__ import absolute_import
from __future__ import division
from __future__ import print_function
import base64
import imageio
import io
import matplotlib
import matplotlib.pyplot as plt
import os
import shutil
import tempfile
import tensorflow as tf
import zipfile
import IPython
from google.colab import files
except ImportError:
files = None
from tf_agents.agents.dqn import dqn_agent
from tf_agents.drivers import dynamic_step_driver
from tf_agents.environments import suite_gym
from tf_agents.environments import tf_py_environment
from tf_agents.eval import metric_utils
from tf_agents.metrics import tf_metrics
from tf_agents.networks import q_network
from tf_agents.policies import policy_saver
from tf_agents.policies import py_tf_eager_policy
from tf_agents.policies import random_tf_policy
from tf_agents.replay_buffers import tf_uniform_replay_buffer
from tf_agents.trajectories import trajectory
from tf_agents.utils import common
tempdir = os.getenv("TEST_TMPDIR", tempfile.gettempdir())
# Set up a virtual display for rendering OpenAI gym environments.
import xvfbwrapper
xvfbwrapper.Xvfb(1400, 900, 24).start()
Agente DQN
Stiamo per configurare l'agente DQN, proprio come nella colab precedente. I dettagli sono nascosti per impostazione predefinita in quanto non sono parte fondamentale di questa collaborazione, ma puoi fare clic su "MOSTRA CODICE" per vedere i dettagli.
env_name = "CartPole-v1"
collect_steps_per_iteration = 100
replay_buffer_capacity = 100000
fc_layer_params = (100,)
batch_size = 64
learning_rate = 1e-3
log_interval = 5
num_eval_episodes = 10
eval_interval = 1000
train_py_env = suite_gym.load(env_name)
eval_py_env = suite_gym.load(env_name)
train_env = tf_py_environment.TFPyEnvironment(train_py_env)
eval_env = tf_py_environment.TFPyEnvironment(eval_py_env)
q_net = q_network.QNetwork(
optimizer = tf.compat.v1.train.AdamOptimizer(learning_rate=learning_rate)
global_step = tf.compat.v1.train.get_or_create_global_step()
agent = dqn_agent.DqnAgent(
Raccolta dati
replay_buffer = tf_uniform_replay_buffer.TFUniformReplayBuffer(
collect_driver = dynamic_step_driver.DynamicStepDriver(
# Initial data collection
# Dataset generates trajectories with shape [BxTx...] where
# T = n_step_update + 1.
dataset = replay_buffer.as_dataset(
num_parallel_calls=3, sample_batch_size=batch_size,
iterator = iter(dataset)
Formare l'agente
# (Optional) Optimize by wrapping some of the code in a graph using TF function.
agent.train = common.function(agent.train)
def train_one_iteration():
# Collect a few steps using collect_policy and save to the replay buffer.
# Sample a batch of data from the buffer and update the agent's network.
experience, unused_info = next(iterator)
train_loss = agent.train(experience)
iteration = agent.train_step_counter.numpy()
print ('iteration: {0} loss: {1}'.format(iteration, train_loss.loss))
Generazione video
def embed_gif(gif_buffer):
"""Embeds a gif file in the notebook."""
tag = '<img src="data:image/gif;base64,{0}"/>'.format(base64.b64encode(gif_buffer).decode())
return IPython.display.HTML(tag)
def run_episodes_and_create_video(policy, eval_tf_env, eval_py_env):
num_episodes = 3
frames = []
for _ in range(num_episodes):
time_step = eval_tf_env.reset()
while not time_step.is_last():
action_step = policy.action(time_step)
time_step = eval_tf_env.step(action_step.action)
gif_file = io.BytesIO()
imageio.mimsave(gif_file, frames, format='gif', fps=60)
Genera un video
Verifica le prestazioni della policy generando un video.
print ('global_step:')
print (global_step)
run_episodes_and_create_video(agent.policy, eval_env, eval_py_env)
global_step: <tf.Variable 'global_step:0' shape=() dtype=int64, numpy=0>
Setup Checkpointer e PolicySaver
Ora siamo pronti per utilizzare Checkpointer e PolicySaver.
checkpoint_dir = os.path.join(tempdir, 'checkpoint')
train_checkpointer = common.Checkpointer(
Politica di risparmio
policy_dir = os.path.join(tempdir, 'policy')
tf_policy_saver = policy_saver.PolicySaver(agent.policy)
Allena un'iterazione
print('Training one iteration....')
Salva al checkpoint
Ripristina punto di controllo
Affinché ciò funzioni, l'intero set di oggetti dovrebbe essere ricreato allo stesso modo di quando è stato creato il checkpoint.
global_step = tf.compat.v1.train.get_global_step()
Salva anche la politica ed esporta in una posizione
La policy può essere caricata senza conoscere quale agente o rete è stata utilizzata per crearla. Ciò semplifica notevolmente l'implementazione della policy.
Carica la politica salvata e controlla come si comporta
saved_policy = tf.saved_model.load(policy_dir)
run_episodes_and_create_video(saved_policy, eval_env, eval_py_env)
Esporta e importa
Il resto della collaborazione ti aiuterà a esportare / importare checkpointer e directory di criteri in modo da poter continuare l'addestramento in un secondo momento e distribuire il modello senza dover eseguire nuovamente l'addestramento.
Ora puoi tornare a "Train one iterazione" e allenarti ancora un paio di volte in modo da poter capire la differenza in seguito. Una volta che inizi a vedere risultati leggermente migliori, continua di seguito.
Crea file zip e carica file zip (fare doppio clic per vedere il codice)
def create_zip_file(dirname, base_filename):
return shutil.make_archive(base_filename, 'zip', dirname)
def upload_and_unzip_file_to(dirname):
if files is None:
uploaded = files.upload()
for fn in uploaded.keys():
print('User uploaded file "{name}" with length {length} bytes'.format(
name=fn, length=len(uploaded[fn])))
zip_files = zipfile.ZipFile(io.BytesIO(uploaded[fn]), 'r')
Crea un file zippato dalla directory del checkpoint.
checkpoint_zip_filename = create_zip_file(checkpoint_dir, os.path.join(tempdir, 'exported_cp'))
Scarica il file zip.
if files is not None: # try again if this fails:
Dopo l'allenamento per un po' di tempo (10-15 volte), scarica il file zip del checkpoint e vai su "Runtime > Riavvia ed esegui tutto" per ripristinare l'allenamento e tornare a questa cella. Ora puoi caricare il file zip scaricato e continuare la formazione.
global_step = tf.compat.v1.train.get_global_step()
Una volta caricata la directory del checkpoint, torna a "Train one iterazione" per continuare la formazione o torna a "Genera un video" per verificare le prestazioni della politica caricata.
In alternativa, è possibile salvare la policy (modello) e ripristinarla. A differenza di checkpointer, non è possibile continuare con l'addestramento, ma è comunque possibile distribuire il modello. Nota che il file scaricato è molto più piccolo di quello del checkpointer.
policy_zip_filename = create_zip_file(policy_dir, os.path.join(tempdir, 'exported_policy'))
if files is not None: # try again if this fails:
Carica la directory della policy scaricata ( e controlla come si comporta la policy salvata.
saved_policy = tf.saved_model.load(policy_dir)
run_episodes_and_create_video(saved_policy, eval_env, eval_py_env)
Se non si desidera utilizzare la politica TF, allora si può anche utilizzare il saved_model direttamente con l'ENV Python attraverso l'utilizzo di py_tf_eager_policy.SavedModelPyTFEagerPolicy
Nota che funziona solo quando è abilitata la modalità desideroso.
eager_py_policy = py_tf_eager_policy.SavedModelPyTFEagerPolicy(
policy_dir, eval_py_env.time_step_spec(), eval_py_env.action_spec())
# Note that we're passing eval_py_env not eval_env.
run_episodes_and_create_video(eager_py_policy, eval_py_env, eval_py_env)
Converti la politica in TFLite
Vedere convertitore tensorflow Lite per maggiori dettagli.
converter = tf.lite.TFLiteConverter.from_saved_model(policy_dir, signature_keys=["action"])
tflite_policy = converter.convert()
with open(os.path.join(tempdir, 'policy.tflite'), 'wb') as f:
Esegui l'inferenza sul modello TFLite
Vedere tensorflow Lite Inference per maggiori dettagli.
import numpy as np
interpreter = tf.lite.Interpreter(os.path.join(tempdir, 'policy.tflite'))
policy_runner = interpreter.get_signature_runner()
{'0/discount': 1, '0/observation': 2, '0/reward': 3, '0/step_type': 0}
{'action': array([0])}