Generowanie obrazów za pomocą BigBiGAN

Ten notebook jest demo dla modeli dostępnych na BigBiGAN TF Hub .

BigBiGAN rozszerza standardowe (duże) Gans dodając moduł nadajnika, który może być używany bez nadzoru nauki reprezentacji. Z grubsza rzecz biorąc, odwraca enkodera generator przewidując śladów z daną prawdziwe dane x . Zobacz papier BigBiGAN na arXiv [1], aby uzyskać więcej informacji na temat tych modeli.

Po połączeniu się ze środowiskiem wykonawczym zacznij od wykonania tych instrukcji:

  1. (Opcjonalnie) Aktualizacja wybrany module_path w pierwszej komórce kodu poniżej, aby załadować generator BigBiGAN dla innego enkodera architektury.
  2. Kliknij Runtime> Uruchom wszystko uruchomić każdą komórkę w porządku. Następnie dane wyjściowe, w tym wizualizacje próbek i rekonstrukcji BigBiGAN, powinny automatycznie pojawić się poniżej.

[1] Jeff Donahue i Karen Simonyan. Large Scale kontradyktoryjności Przedstawicielstwo Learning . arXiv: +1.907,02544, 2019.

Najpierw ustaw ścieżkę modułu. Domyślnie ładujemy model BigBiGAN z enkoderem mniejszej ResNet-50 z opartym <a href=""></a> . Aby załadować RevNet-50-x4 modelu większy oparciu stosowany w celu osiągnięcia jak najlepszych wyników w nauce reprezentacja, skomentuj aktywnego module_path ustawienia i usuń drugiej.

module_path = ''  # ResNet-50
# module_path = ''  # RevNet-50 x4


import io
import IPython.display
import PIL.Image
from pprint import pformat

import numpy as np

import tensorflow.compat.v1 as tf

import tensorflow_hub as hub
Zdefiniuj niektóre funkcje do wyświetlania obrazów

def imgrid(imarray, cols=4, pad=1, padval=255, row_major=True):
"""Lays out a [N, H, W, C] image array as a single image grid."""
= int(pad)
if pad < 0:
raise ValueError('pad must be non-negative')
= int(cols)
assert cols >= 1
, H, W, C = imarray.shape
= N // cols + int(N % cols != 0)
= rows * cols - N
assert batch_pad >= 0
= [batch_pad, pad, pad, 0]
= [[0, p] for p in post_pad]
= np.pad(imarray, pad_arg, 'constant', constant_values=padval)
+= pad
+= pad
= (imarray
.reshape(rows, cols, H, W, C)
.transpose(0, 2, 1, 3, 4)
.reshape(rows*H, cols*W, C))
if pad:
= grid[:-pad, :-pad]
return grid

def interleave(*args):
"""Interleaves input arrays of the same shape along the batch axis."""
if not args:
raise ValueError('At least one argument is required.')
= args[0]
if any(a.shape != a0.shape for a in args):
raise ValueError('All inputs must have the same shape.')
if not a0.shape:
raise ValueError('Inputs must have at least one axis.')
out = np.transpose(args, [1, 0] + list(range(2, len(a0.shape) + 1)))
out = out.reshape(-1, *a0.shape[1:])
return out

def imshow(a, format='png', jpeg_fallback=True):
"""Displays an image in the given format."""
= a.astype(np.uint8)
= io.BytesIO()
.Image.fromarray(a).save(data, format)
= data.getvalue()
= IPython.display.display(IPython.display.Image(im_data))
except IOError:
if jpeg_fallback and format != 'jpeg':
print ('Warning: image was too large to display in format "{}"; '
'trying jpeg instead.').format(format)
return imshow(a, format='jpeg')
return disp

def image_to_uint8(x):
"""Converts [-1, 1] float array to [0, 255] uint8."""
= np.asarray(x)
= (256. / 2.) * (x + 1.)
= np.clip(x, 0, 255)
= x.astype(np.uint8)
return x

Załaduj moduł BigBiGAN TF Hub i wyświetl jego dostępną funkcjonalność

# module = hub.Module(module_path, trainable=True, tags={'train'})  # training
module = hub.Module(module_path)  # inference

for signature in module.get_signature_names():
print('Signature:', signature)
print('Inputs:', pformat(module.get_input_info_dict(signature)))
print('Outputs:', pformat(module.get_output_info_dict(signature)))
Signature: default
Inputs: {'x': <hub.ParsedTensorInfo shape=(?, 256, 256, 3) dtype=float32 is_sparse=False>}
Outputs: {'default': <hub.ParsedTensorInfo shape=(?, 120) dtype=float32 is_sparse=False>}

Signature: generate
Inputs: {'z': <hub.ParsedTensorInfo shape=(?, 120) dtype=float32 is_sparse=False>}
Outputs: {'default': <hub.ParsedTensorInfo shape=(?, 128, 128, 3) dtype=float32 is_sparse=False>,
 'upsampled': <hub.ParsedTensorInfo shape=(?, 256, 256, 3) dtype=float32 is_sparse=False>}

Signature: discriminate
Inputs: {'x': <hub.ParsedTensorInfo shape=(?, 128, 128, 3) dtype=float32 is_sparse=False>,
 'z': <hub.ParsedTensorInfo shape=(?, 120) dtype=float32 is_sparse=False>}
Outputs: {'score_x': <hub.ParsedTensorInfo shape=(?,) dtype=float32 is_sparse=False>,
 'score_xz': <hub.ParsedTensorInfo shape=(?,) dtype=float32 is_sparse=False>,
 'score_z': <hub.ParsedTensorInfo shape=(?,) dtype=float32 is_sparse=False>}

Signature: encode
Inputs: {'x': <hub.ParsedTensorInfo shape=(?, 256, 256, 3) dtype=float32 is_sparse=False>}
Outputs: {'avepool_feat': <hub.ParsedTensorInfo shape=(?, 2048) dtype=float32 is_sparse=False>,
 'bn_crelu_feat': <hub.ParsedTensorInfo shape=(?, 4096) dtype=float32 is_sparse=False>,
 'default': <hub.ParsedTensorInfo shape=(?, 120) dtype=float32 is_sparse=False>,
 'z_mean': <hub.ParsedTensorInfo shape=(?, 120) dtype=float32 is_sparse=False>,
 'z_sample': <hub.ParsedTensorInfo shape=(?, 120) dtype=float32 is_sparse=False>,
 'z_stdev': <hub.ParsedTensorInfo shape=(?, 120) dtype=float32 is_sparse=False>}

Zdefiniuj klasę opakowania, aby uzyskać wygodny dostęp do różnych funkcji

class BigBiGAN(object):

def __init__(self, module):
"""Initialize a BigBiGAN from the given TF Hub module."""
self._module = module

def generate(self, z, upsample=False):
"""Run a batch of latents z through the generator to generate images.

      z: A batch of 120D Gaussian latents, shape [N, 120].

    Returns: a batch of generated RGB images, shape [N, 128, 128, 3], range
      [-1, 1].

= self._module(z, signature='generate', as_dict=True)
return outputs['upsampled' if upsample else 'default']

def make_generator_ph(self):
"""Creates a tf.placeholder with the dtype & shape of generator inputs."""
= self._module.get_input_info_dict('generate')['z']
return tf.placeholder(dtype=info.dtype, shape=info.get_shape())

def gen_pairs_for_disc(self, z):
"""Compute generator input pairs (G(z), z) for discriminator, given z.

      z: A batch of latents (120D standard Gaussians), shape [N, 120].

    Returns: a tuple (G(z), z) of discriminator inputs.

# Downsample 256x256 image x for 128x128 discriminator input.
= self.generate(z)
return x, z

def encode(self, x, return_all_features=False):
"""Run a batch of images x through the encoder.

      x: A batch of data (256x256 RGB images), shape [N, 256, 256, 3], range
        [-1, 1].
      return_all_features: If True, return all features computed by the encoder.
        Otherwise (default) just return a sample z_hat.

    Returns: the sample z_hat of shape [N, 120] (or a dict of all features if

= self._module(x, signature='encode', as_dict=True)
return outputs if return_all_features else outputs['z_sample']

def make_encoder_ph(self):
"""Creates a tf.placeholder with the dtype & shape of encoder inputs."""
= self._module.get_input_info_dict('encode')['x']
return tf.placeholder(dtype=info.dtype, shape=info.get_shape())

def enc_pairs_for_disc(self, x):
"""Compute encoder input pairs (x, E(x)) for discriminator, given x.

      x: A batch of data (256x256 RGB images), shape [N, 256, 256, 3], range
        [-1, 1].

    Returns: a tuple (downsample(x), E(x)) of discriminator inputs.

# Downsample 256x256 image x for 128x128 discriminator input.
= tf.nn.avg_pool(x, ksize=2, strides=2, padding='SAME')
= self.encode(x)
return x_down, z

def discriminate(self, x, z):
"""Compute the discriminator scores for pairs of data (x, z).

    (x, z) must be batches with the same leading batch dimension, and joint
      scores are computed on corresponding pairs x[i] and z[i].

      x: A batch of data (128x128 RGB images), shape [N, 128, 128, 3], range
        [-1, 1].
      z: A batch of latents (120D standard Gaussians), shape [N, 120].

      A dict of scores:
        score_xz: the joint scores for the (x, z) pairs.
        score_x: the unary scores for x only.
        score_z: the unary scores for z only.

= dict(x=x, z=z)
return self._module(inputs, signature='discriminate', as_dict=True)

def reconstruct_x(self, x, use_sample=True, upsample=False):
"""Compute BigBiGAN reconstructions of images x via G(E(x)).

      x: A batch of data (256x256 RGB images), shape [N, 256, 256, 3], range
        [-1, 1].
      use_sample: takes a sample z_hat ~ E(x). Otherwise, deterministically
        use the mean. (Though a sample z_hat may be far from the mean z,
        typically the resulting recons G(z_hat) and G(z) are very
      upsample: if set, upsample the reconstruction to the input resolution
        (256x256). Otherwise return the raw lower resolution generator output

    Returns: a batch of recons G(E(x)), shape [N, 256, 256, 3] if
      `upsample`, otherwise [N, 128, 128, 3].

if use_sample:
= self.encode(x)
= self.encode(x, return_all_features=True)['z_mean']
= self.generate(z, upsample=upsample)
return recons

def losses(self, x, z):
"""Compute per-module BigBiGAN losses given data & latent sample batches.

      x: A batch of data (256x256 RGB images), shape [N, 256, 256, 3], range
        [-1, 1].
      z: A batch of latents (120D standard Gaussians), shape [M, 120].

    For the original BigBiGAN losses, pass batches of size N=M=2048, with z's
    sampled from a 120D standard Gaussian (e.g., np.random.randn(2048, 120)),
    and x's sampled from the ImageNet (ILSVRC2012) training set with the
ResNet-style" preprocessing from:

      A dict of per-module losses:
        disc: loss for the discriminator.
        enc: loss for the encoder.
        gen: loss for the generator.

# Compute discriminator scores on (x, E(x)) pairs.
# Downsample 256x256 image x for 128x128 discriminator input.
= self.discriminate(*self.enc_pairs_for_disc(x))
= tf.concat([scores_enc_x_dict['score_xz'],
['score_z']], axis=0)

# Compute discriminator scores on (G(z), z) pairs.
= self.discriminate(*self.gen_pairs_for_disc(z))
= tf.concat([scores_gen_z_dict['score_xz'],
['score_z']], axis=0)

= tf.reduce_mean(tf.nn.relu(1. - scores_enc_x))
= tf.reduce_mean(tf.nn.relu(1. + scores_gen_z))
= disc_loss_enc_x + disc_loss_gen_z

= tf.reduce_mean(scores_enc_x)
= tf.reduce_mean(-scores_gen_z)

return dict(disc=disc_loss, enc=enc_loss, gen=gen_loss)

Twórz tensory, które będą później używane do obliczania próbek, rekonstrukcji, wyników dyskryminacyjnych i strat

bigbigan = BigBiGAN(module)

# Make input placeholders for x (`enc_ph`) and z (`gen_ph`).
= bigbigan.make_encoder_ph()
= bigbigan.make_generator_ph()

# Compute samples G(z) from encoder input z (`gen_ph`).
= bigbigan.generate(gen_ph)

# Compute reconstructions G(E(x)) of encoder input x (`enc_ph`).
= bigbigan.reconstruct_x(enc_ph, upsample=True)

# Compute encoder features used for representation learning evaluations given
# encoder input x (`enc_ph`).
= bigbigan.encode(enc_ph, return_all_features=True)

# Compute discriminator scores for encoder pairs (x, E(x)) given x (`enc_ph`)
# and generator pairs (G(z), z) given z (`gen_ph`).
= bigbigan.discriminate(*bigbigan.enc_pairs_for_disc(enc_ph))
= bigbigan.discriminate(*bigbigan.gen_pairs_for_disc(gen_ph))

# Compute losses.
= bigbigan.losses(enc_ph, gen_ph)
Utwórz sesję TensorFlow i zainicjuj zmienne

init = tf.global_variables_initializer()
= tf.Session()

Próbki generatora

Po pierwsze, będziemy wizualizować próbki z pretrained generatora BigBiGAN przez generator próbkowania wejścia z ze standardowej Gaussa (przez np.random.randn ) i wyświetlania obrazów produkuje. Jak dotąd nie wykraczamy poza możliwości standardowego GAN - na razie używamy tylko generatora (i ignorujemy koder).

feed_dict = {gen_ph: np.random.randn(32, 120)}
=, feed_dict=feed_dict)
print('samples shape:', _out_samples.shape)
(imgrid(image_to_uint8(_out_samples), cols=4))
samples shape: (32, 128, 128, 3)


Załaduj test_images z zestawu danych TF-kwiaty

BigBiGAN jest szkolony w ImageNet, ale ponieważ jest zbyt duży do pracy w tym demo, używamy mniejszego zestawu danych TF-Flowers [1] jako naszych danych wejściowych do wizualizacji rekonstrukcji i obliczania funkcji kodera.

W tej komórce ładujemy TF-kwiaty (pobieranie zestawu danych w razie potrzeby) i przechowywać stałą porcję 256x256 próbek RGB obraz w numpy tablicy test_images .


def get_flowers_data():
"""Returns a [32, 256, 256, 3] np.array of preprocessed TF-Flowers samples."""
import tensorflow_datasets as tfds
, info = tfds.load('tf_flowers', split='train', with_info=True)

# Just get the images themselves as we don't need labels for this demo.
= x: x['image'])

# Filter out small images (with minor edge length <256).
= ds.filter(lambda x: tf.reduce_min(tf.shape(x)[:2]) >= 256)

# Take the center square crop of the image and resize to 256x256.
def crop_and_resize(image):
= tf.shape(image)[:2]
= tf.reduce_min(imsize)
= (imsize - minor_edge) // 2
= start + minor_edge
= image[start[0] : stop[0], start[1] : stop[1]]
= tf.image.resize_bicubic([cropped_image], [256, 256])[0]
return resized_image

# Convert images from [0, 255] uint8 to [-1, 1] float32.
= image: tf.cast(image, tf.float32) / (255. / 2.) - 1)

# Take the first 32 samples.
= ds.take(32)

return np.array(list(tfds.as_numpy(ds)))

= get_flowers_data()
Teraz możemy wizualizować rekonstrukcje BigBiGAN przekazując prawdziwych obrazów przez koder i z powrotem przez generator, obliczanie G(E(x)) podane obrazy x . Poniżej wejściowe zdjęć x przedstawiono w lewej kolumnie, a odpowiadające rekonstrukcje są pokazane po prawej stronie.

Zauważ, że rekonstrukcje nie są idealnie dopasowane do obrazów wejściowych; raczej mają tendencję do przechwytywania treści semantycznej wyższego poziomu, jednocześnie „zapominając” większość szczegółów niskiego poziomu. Sugeruje to, że koder BigBiGAN może nauczyć się przechwytywać typy informacji semantycznych wysokiego poziomu o obrazach, które chcielibyśmy zobaczyć w podejściu do uczenia reprezentacji.

Zauważ też, że surowe rekonstrukcje obrazów wejściowych 256x256 są w niższej rozdzielczości generowanej przez nasz generator – 128x128. Upsamplujemy je na potrzeby wizualizacji.

test_images_batch = test_images[:16]
=, feed_dict={enc_ph: test_images_batch})
print('reconstructions shape:', _out_recons.shape)

= interleave(test_images_batch, _out_recons)
print('inputs_and_recons shape:', inputs_and_recons.shape)
(imgrid(image_to_uint8(inputs_and_recons), cols=2))
reconstructions shape: (16, 256, 256, 3)
inputs_and_recons shape: (32, 256, 256, 3)


Funkcje kodera

Pokażemy teraz, jak obliczać funkcje z kodera używanego do oceny uczenia się reprezentacji standardowej.

Te cechy mogą być używane w klasyfikatorach liniowych lub opartych na najbliższych sąsiadach. Mamy zawierać standardową funkcję podjętą po średni globalny poolingu (klucz avepool_feat ), jak również większy „BN + CReLU” funkcji (klucz bn_crelu_feat ), stosowane do osiągnięcia jak najlepszych wyników.

_out_features =, feed_dict={enc_ph: test_images_batch})
print('AvePool features shape:', _out_features['avepool_feat'].shape)
print('BN+CReLU features shape:', _out_features['bn_crelu_feat'].shape)
AvePool features shape: (16, 2048)
BN+CReLU features shape: (16, 4096)

Wyniki i straty dyskryminatora

Na koniec obliczymy wyniki i straty dyskryminatora w partiach par enkodera i generatora. Straty te mogą zostać przekazane do optymalizatora w celu trenowania BigBiGAN.

Korzystając z naszej partii obrazów powyżej jako wejścia kodera x , wynik obliczenia kodera D(x, E(x)) . Do wejścia generatora że próbka z od a 120D średnia Gaussa poprzez np.random.randn Komputery wynik generatora jako D(G(z), z) .

Dyskryminator przewiduje się wspólną wynik score_xz dla (x, z) pary, a także unarne wyniki score_x i score_z dla x i z sam, odpowiednio. Jest wytrenowany, aby przyznawać wysokie (dodatnie) wyniki parom koderów i niskie (ujemne) wyniki parom generatorów. To przeważnie posiada poniżej, chociaż jednoargumentowy score_z jest ujemny w obydwu przypadkach, co wskazuje, że koder wyjścia E(x) przypominają rzeczywiste próbki z krzywej Gaussa.

feed_dict = {enc_ph: test_images, gen_ph: np.random.randn(32, 120)}
, _out_scores_gen, _out_losses =
[disc_scores_enc, disc_scores_gen, losses], feed_dict=feed_dict)
print('Encoder scores:', {k: v.mean() for k, v in _out_scores_enc.items()})
print('Generator scores:', {k: v.mean() for k, v in _out_scores_gen.items()})
print('Losses:', _out_losses)
Encoder scores: {'score_xz': 0.6921617, 'score_z': -0.50248873, 'score_x': 1.4621685}
Generator scores: {'score_xz': -0.8883822, 'score_z': -0.45992172, 'score_x': -0.5907474}
Losses: {'disc': 1.2274433, 'enc': 0.55200976, 'gen': 0.64635044}