tf.function으로 성능 향상하기

텐서플로 2에서는 즉시 실행(eager execution)이 기본적으로 활성화되어 있습니다. 직관적이고 유연한 사용자 인터페이스를 제공하지만 성능과 배포에 비용이 더 듭니다(하나의 연산을 실행할 때는 훨씬 간단하고 빠릅니다).

성능을 높이고 이식성이 좋은 모델을 만들려면 tf.function을 사용해 그래프로 변환하세요. 하지만 조심해야 할 점이 있습니다. tf.function은 무조건 속도를 높여주는 마법의 은총알이 아닙니다!

이 가이드는 tf.function의 이면에 있는 개념을 이해하고 효과적으로 사용할 수 있도록 돕습니다.

여기서 배울 주요 내용과 권고 사항은 다음과 같습니다:

  • 즉시 실행 모드에서 디버깅한 다음 @tf.function으로 데코레이팅하세요.
  • 객체 변경(object mutation)이나 리스트 요소 추가 같은 Python의 부수 효과에 의존하지 마세요.
  • tf.function은 텐서플로 연산과 가장 잘 동작합니다: 넘파이와 파이썬 호출은 상수로 바뀝니다.


import tensorflow as tf
에러 출력을 위한 헬퍼 함수를 정의합니다:

import traceback
import contextlib

# Some helper code to demonstrate the kinds of errors you might encounter.
def assert_raises(error_class):
  except error_class as e:
    print('Caught expected exception \n  {}:'.format(error_class))
  except Exception as e:
    raise e
    raise Exception('Expected {} to be raised but no error was raised!'.format(



정의하는 Function(예: @tf.function 데코레이터를 적용하는 예시)은 핵심 TensorFlow 연산과 매우 비슷합니다. 즉, 즉시 실행할 수 있으며 그래디언트 계산과 같은 작업이 가능합니다.

@tf.function  # The decorator converts `add` into a `Function`.
def add(a, b):
  return a + b

add(tf.ones([2, 2]), tf.ones([2, 2]))  #  [[2., 2.], [2., 2.]]
<tf.Tensor: shape=(2, 2), dtype=float32, numpy=
array([[2., 2.],
       [2., 2.]], dtype=float32)>
v = tf.Variable(1.0)
with tf.GradientTape() as tape:
  result = add(v, 1.0)
tape.gradient(result, v)
<tf.Tensor: shape=(), dtype=float32, numpy=1.0>

다른 함수 내부에 사용할 수 있습니다.

def dense_layer(x, w, b):
  return add(tf.matmul(x, w), b)

dense_layer(tf.ones([3, 2]), tf.ones([2, 2]), tf.ones([2]))
<tf.Tensor: shape=(3, 2), dtype=float32, numpy=
array([[3., 3.],
       [3., 3.],
       [3., 3.]], dtype=float32)>

Function은 Eager 코드보다 빠릅니다. 특히 그래프에 작은 ops가 많을 때 그렇습니다. 하지만 (합성곱처럼) 계산량이 많은 ops 몇 개로 이루어진 그래프는 속도 향상이 크지 않습니다.

import timeit
conv_layer = tf.keras.layers.Conv2D(100, 3)

def conv_fn(image):
  return conv_layer(image)

image = tf.zeros([1, 200, 200, 100])
# Warm up
conv_layer(image); conv_fn(image)
print("Eager conv:", timeit.timeit(lambda: conv_layer(image), number=10))
print("Function conv:", timeit.timeit(lambda: conv_fn(image), number=10))
print("Note how there's not much difference in performance for convolutions")
Eager conv: 0.006060872000489326
Function conv: 0.006282959999225568
Note how there's not much difference in performance for convolutions


이 섹션에서는 향후 변경될 수 있는 구현 세부 정보를 포함하여 내부에서 Function이 작동하는 방식을 노출합니다. 그러나 추적이 발생하는 이유와 시기를 이해하면 tf.function을 효과적으로 사용하기가 훨씬 쉽습니다!

"추적"이란 무엇입니까?

FunctionTensorFlow Graph에서 프로그램을 실행합니다. 그러나 tf.Graph는 사용자가 즉시 실행 TensorFlow 프로그램에서 작성하고자 하는 모든 요소를 나타낼 수는 없습니다. 예를 들어 Python은 다형성을 지원하지만 tf.Graph는 입력에 데이터 유형과 차원의 지정을 요구합니다. 또는 사용자가 명령줄 인수 읽기, 오류 발생 또는 더 복잡한 Python 객체 작업과 같은 부수적인 작업을 수행할 수도 있지만, 이 중 어떤 작업도 tf.Graph에서 실행할 수 없습니다.

Function은 코드를 두 단계로 분리하여 이러한 문제를 해소합니다.

  1. "추적"이라고 하는 첫 번째 단계에서 Function은 새 tf.Graph를 만듭니다. Python 코드는 정상적으로 실행되지만 모든 TensorFlow 연산(예: 두 개의 텐서 추가)이 지연되어, 결국 실행되지 않고 tf.Graph에 의해 캡처됩니다.

  2. 두 번째 단계에서는 첫 번째 단계에서 지연된 모든 부분을 포함하는 tf.Graph가 실행됩니다. 이 단계는 추적 단계보다 훨씬 빠릅니다.

입력에 따라 Function이 호출시 항상 첫 번째 단계를 실행하지는 않습니다. 이 결정이 내려지는 방식을 더 잘 이해하려면 아래의 "추적 규칙"을 참조합니다. 첫 번째 단계를 건너뛰고 두 번째 단계만 실행하면 TensorFlow가 높은 성능을 발휘합니다.

Function이 추적하기로 결정하면 추적 단계 바로 다음에 두 번째 단계가 이어지므로 Function 호출로tf.Graph가 만들어지는 동시에 실행됩니다. 나중에 get_concrete_function으로 추적 단계만 실행하는 방법을 볼 수 있습니다.

다른 유형의 인수를 Function으로 전달하면 두 단계가 모두 실행됩니다.

def double(a):
  print("Tracing with", a)
  return a + a

Tracing with Tensor("a:0", shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)

Tracing with Tensor("a:0", shape=(), dtype=float32)
tf.Tensor(2.2, shape=(), dtype=float32)

Tracing with Tensor("a:0", shape=(), dtype=string)
tf.Tensor(b'aa', shape=(), dtype=string)

같은 인수 유형으로 Function을 반복해서 호출하는 경우, 생성되는 그래프가 동일하므로 TensorFlow는 추적 단계를 건너뛰고 이전에 추적한 그래프를 재사용합니다.

# This doesn't print 'Tracing with ...'
tf.Tensor(b'bb', shape=(), dtype=string)

pretty_printed_concrete_signatures()를 사용하여 사용 가능한 모든 추적을 볼 수 있습니다.

    a: int32 Tensor, shape=()
    int32 Tensor, shape=()

    a: float32 Tensor, shape=()
    float32 Tensor, shape=()

    a: string Tensor, shape=()
    string Tensor, shape=()

지금까지 tf.function이 TensorFlow의 그래프 추적 로직을 통해 캐시된 동적 디스패치 레이어를 생성하는 과정을 확인했습니다. 다음은 용어에 대한 보충 설명입니다.

  • tf.Graph는 언어에 구애받지 않고 TensorFlow 계산을 이식 가능하게 원시 형태로 표현한 것입니다.
  • ConcreteFunctiontf.Graph를 래핑합니다.
  • FunctionConcreteFunction의 캐시를 관리하고 입력에 적합한 캐시를 선택합니다.
  • tf.function은 Python 함수를 래핑하여 Function 객체를 반환합니다.
  • 추적(tracing)은 tf.Graph를 생성하고 추적(trace)이라고도 하는 ConcreteFunction에서 이를 래핑합니다.

추적 규칙

호출하면 Function이 각 인수의 tf.types.experimental.TraceType을 사용하여 기존 ConcreteFunction에 호출 인수를 일치시킵니다. 일치하는 ConcreteFunction이 발견되면 호출이 전달됩니다. 일치하는 항목이 없으면 새 ConcreteFunction이 추적됩니다.

일치하는 항목이 여러 개 있는 경우 가장 구체적인 서명이 선택됩니다. 즉, C++ 또는 Java의 일반 함수 호출과 마찬가지로 매칭이 서브타이핑으로 수행됩니다. 예를 들어 TensorShape([1, 2])TensorShape([None, None])의 하위 유형이므로 TensorShape([1, 2])TensorShape([None, None])로 생성한 ConcreteFunction에 전달할 수 있지만 TensorShape([1, None])를 사용하는 ConcreteFunction가 존재하고 더 구체적일 경우 더 높은 우선순위를 갖습니다.

TraceType은 다음과 같이 입력 인수에서 결정됩니다.

  • Tensor의 경우 유형이 Tensordtypeshape에 의해 매개변수화됩니다. 순위 형상은 순위가 지정되지 않은 형상의 하위 유형입니다. 고정 차원은 알 수 없는 차원의 하위 유형입니다.
  • Variable의 경우 유형이 Tensor와 유사하지만 제어 종속성을 올바르게 연결하는 데 필요한 변수의 고유 리소스 ID도 포함합니다.
  • Python 기본 값의 경우 유형은 자체에 해당합니다. 예를 들어 3 값의 TraceTypeint가 아니라 LiteralTraceType<3>입니다.
  • listtuple 등과 같은 순서가 유지되는 Python 컨테이너의 경우 유형이 요소 유형에 따라 매개변수화됩니다. 예를 들어 [1, 2]의 유형은 ListTraceType<LiteralTraceType<1>, LiteralTraceType<2>>이고 [2, 1]의 유형은 앞선 유형과는 달리 ListTraceType<LiteralTraceType<2>, LiteralTraceType<1>>입니다.
  • dict와 같은 Python 매핑의 경우 유형은 동일한 키에서 실제 값 대신의 값 유형으로의 매핑이기도 합니다. 예를 들어 {1: 2, 3: 4}의 유형은 MappingTraceType<<KeyValue<1, LiteralTraceType<2>>>, <KeyValue<3, LiteralTraceType<4>>>>입니다. 순서가 정해져 있는 컨테이너와 달리 {1: 2, 3: 4}{3: 4, 1: 2}는 동일한 유형을 갖습니다.
  • __tf_tracing_type__ 메서드를 구현하는 Python 객체의 경우 해당 메소드가 반환하는 모든 항목이 유형으로 지정됩니다.
  • 다른 Python 개체의 경우 유형은 매칭을 위해 객체의 Python 동등성 및 해싱을 사용하는 제네릭 TraceType입니다(참고: 객체에 대한 weakref에 의존하므로 객체가 범위 내에 있거나 삭제되지 않은 경우에만 작동합니다).

참고: TraceTypeFunction 입력 매개변수를 기반으로 하므로 전역 및 자유 변수에 대한 변경만으로는 새 추적이 생성되지 않습니다. Python 전역 및 자유 변수를 처리할 때 권장되는 방법은 이 섹션을 참고합니다.

재추적 제어

Function이 두 개 이상의 추적을 생성하는 경우 재추적을 수행하면 TensorFlow가 각 입력 세트에 대해 올바른 그래프를 생성하는 데 도움이 됩니다. 그러나 추적은 비용이 많이 드는 작업입니다! 호출할 때마다 Function이 새 그래프를 재추적하면 tf.function을 사용하지 않는 경우보다 코드가 더 느리게 실행됩니다.

추적 동작을 제어하기 위해 다음 방법을 사용할 수 있습니다.

고정된 input_signaturetf.function에 전달하기

@tf.function(input_signature=(tf.TensorSpec(shape=[None], dtype=tf.int32),))
def next_collatz(x):
  print("Tracing with", x)
  return tf.where(x % 2 == 0, x // 2, 3 * x + 1)

print(next_collatz(tf.constant([1, 2])))
# You specified a 1-D tensor in the input signature, so this should fail.
with assert_raises(ValueError):
  next_collatz(tf.constant([[1, 2], [3, 4]]))

# You specified an int32 dtype in the input signature, so this should fail.
with assert_raises(ValueError):
  next_collatz(tf.constant([1.0, 2.0]))
Tracing with Tensor("x:0", shape=(None,), dtype=int32)
tf.Tensor([4 1], shape=(2,), dtype=int32)
Caught expected exception 
  <class 'ValueError'>:
Caught expected exception 
  <class 'ValueError'>:
Caught expected exception 
Traceback (most recent call last):
Caught expected exception 
Traceback (most recent call last):
Caught expected exception 
Traceback (most recent call last):
    File "/usr/lib/python3.9/", line 197, in _run_module_as_main
Caught expected exception 
Traceback (most recent call last):
재귀 Function이 작동하는 것처럼 보이더라도 Python 함수는 여러 번 추적되며 성능에 영향을 미칠 수 있습니다. 예를 들면 다음과 같습니다.

def recursive_fn(n):
  if n > 0:
    return recursive_fn(n - 1)
    return 1

recursive_fn(5)  # Warning - multiple tracings
<tf.Tensor: shape=(), dtype=int32, numpy=1>

알려진 문제

Function이 올바르게 평가되지 않는 경우, 오류는 이러한 알려진 문제에 의해 설명될 수 있으며, 이 부분은 향후에 수정될 예정입니다.

Python 전역 및 자유 변수에 의존

Function은 Python 인수의 새 값으로 호출될 때 새로운 ConcreteFunction을 생성합니다. 그러나 해당 Function의 Python 클로저, 전역 또는 비로컬에 대해서는 그렇게 하지 않습니다. Function 호출 사이에 값이 변경되면 Function은 추적되었을 때 가지고 있던 값을 계속 사용합니다. 이것은 일반 Python 함수가 작동하는 방식과 다릅니다.

따라서 외부 이름을 닫는 대신 인수를 사용하는 함수형 프로그래밍 방식을 따라야 합니다.

def buggy_add():
  return 1 + foo

def recommended_add(foo):
  return 1 + foo

foo = 1
print("Buggy:", buggy_add())
print("Correct:", recommended_add(foo))
Buggy: tf.Tensor(2, shape=(), dtype=int32)
Correct: tf.Tensor(2, shape=(), dtype=int32)
print("Updating the value of `foo` to 100!")
foo = 100
print("Buggy:", buggy_add())  # Did not change!
print("Correct:", recommended_add(foo))
Updating the value of `foo` to 100!
Buggy: tf.Tensor(2, shape=(), dtype=int32)
Correct: tf.Tensor(101, shape=(), dtype=int32)

전역 값을 업데이트하는 또 다른 방법은 tf.Variable로 만들고 대신 Variable.assign 메서드를 사용하는 것입니다.

def variable_add():
  return 1 + foo

foo = tf.Variable(1)
print("Variable:", variable_add())
Variable: tf.Tensor(2, shape=(), dtype=int32)
print("Updating the value of `foo` to 100!")
print("Variable:", variable_add())
Updating the value of `foo` to 100!
Variable: tf.Tensor(101, shape=(), dtype=int32)

Python 객체에 의존

Python 객체를 tf.function에 인수로 전달하라는 권장 사항에는 여러 가지 알려진 문제가 있으며 향후 수정될 것으로 예상합니다. 일반적으로, Python 기본 형식 또는 tf.nest 호환 구조를 인수로 사용하거나 객체의 다른 인스턴스에서 Function으로 전달하는 경우, 일관된 추적에 의존할 수 있습니다. 그러나 동일한 객체를 전달하고 해당 속성만 변경하는 경우 Function은 새 추적을 생성하지 않습니다.

class SimpleModel(tf.Module):
  def __init__(self):
    # These values are *not* tf.Variables.
    self.bias = 0.
    self.weight = 2.

def evaluate(model, x):
  return model.weight * x + model.bias

simple_model = SimpleModel()
x = tf.constant(10.)
print(evaluate(simple_model, x))
tf.Tensor(20.0, shape=(), dtype=float32)
print("Adding bias!")
simple_model.bias += 5.0
print(evaluate(simple_model, x))  # Didn't change :(
Adding bias!
tf.Tensor(20.0, shape=(), dtype=float32)

동일한 Function을 사용하여 모델의 업데이트된 인스턴스를 평가하는 것은 오류의 위험이 있습니다. 이는 업데이트된 모델이 원래 모델과 동일한 캐시 키를 갖기 때문입니다.

따라서 변경 가능한 객체 속성에 의존하지 않도록 Function을 작성하거나 새 객체를 생성하는 것이 좋습니다.

이것이 가능하지 않은 경우 한 가지 해결 방법은 재추적을 강제 실행하도록 객체를 수정할 때마다 새로운 Function을 만드는 것입니다.

def evaluate(model, x):
  return model.weight * x + model.bias

new_model = SimpleModel()
evaluate_no_bias = tf.function(evaluate).get_concrete_function(new_model, x)
# Don't pass in `new_model`, `Function` already captured its state during tracing.
tf.Tensor(20.0, shape=(), dtype=float32)
print("Adding bias!")
new_model.bias += 5.0
# Create new Function and ConcreteFunction since you modified new_model.
evaluate_with_bias = tf.function(evaluate).get_concrete_function(new_model, x)
print(evaluate_with_bias(x)) # Don't pass in `new_model`.
Adding bias!
tf.Tensor(25.0, shape=(), dtype=float32)

재추적은 비용이 많이 들기 때문에 tf.Variable을 객체 속성으로 사용할 수 있습니다. 그러면 다시 추적할 필요 없이 이를 변형(하지만 변경되지는 않음에 주의!)하여 비슷한 효과를 거둘 수 있습니다.

class BetterModel:

  def __init__(self):
    self.bias = tf.Variable(0.)
    self.weight = tf.Variable(2.)

def evaluate(model, x):
  return model.weight * x + model.bias

better_model = BetterModel()
print(evaluate(better_model, x))
tf.Tensor(20.0, shape=(), dtype=float32)
print("Adding bias!")
better_model.bias.assign_add(5.0)  # Note: instead of better_model.bias += 5
print(evaluate(better_model, x))  # This works!
Adding bias!
tf.Tensor(25.0, shape=(), dtype=float32)

tf.Variables 만들기

Function은 첫 번째 호출에서 한 번 생성되고 후속 함수 호출에서 재사용되는 싱글톤 tf.Variable만 지원합니다. 아래 코드 조각은 모든 함수 호출에서 새로운 tf.Variable을 생성하므로 ValueError 예외가 발생합니다.


def f(x):
  v = tf.Variable(1.0)
  return v

with assert_raises(ValueError):
Caught expected exception 
  <class 'ValueError'>:
Traceback (most recent call last):
  File "/tmpfs/tmp/ipykernel_184655/", line 8, in assert_raises
  File "/tmpfs/tmp/ipykernel_184655/", line 7, in <module>
ValueError: in user code:

    File "/tmpfs/tmp/ipykernel_184655/", line 3, in f  *
        v = tf.Variable(1.0)

    ValueError: tf.function only supports singleton tf.Variables created on the first call. Make sure the tf.Variable is only created once or created outside tf.function. See for more information.

이 제한을 해결하는 데 사용되는 일반적인 패턴은 Python None 값으로 시작한 다음, 값이 None인 경우 조건부로 tf.Variable을 생성하는 것입니다.

class Count(tf.Module):
  def __init__(self):
    self.count = None

  def __call__(self):
    if self.count is None:
      self.count = tf.Variable(0)
    return self.count.assign_add(1)

c = Count()
tf.Tensor(1, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)

여러 Keras 옵티마이저 프로그램과 함께 사용

tf.function과 함께 둘 이상의 Keras 옵티마이저를 사용할 경우 ValueError: tf.function only supports singleton tf.Variables created on the first call.이 발생할 수 있습니다. 이 오류는 옵티마이저가 처음으로 그래디언트를 적용할 때 내부적으로 tf.Variables를 생성하기 때문에 발생합니다.

opt1 = tf.keras.optimizers.Adam(learning_rate = 1e-2)
opt2 = tf.keras.optimizers.Adam(learning_rate = 1e-3)

def train_step(w, x, y, optimizer):
   with tf.GradientTape() as tape:
       L = tf.reduce_sum(tf.square(w*x - y))
   gradients = tape.gradient(L, [w])
   optimizer.apply_gradients(zip(gradients, [w]))

w = tf.Variable(2.)
x = tf.constant([-1.])
y = tf.constant([2.])

train_step(w, x, y, opt1)
print("Calling `train_step` with different optimizer...")
with assert_raises(ValueError):
  train_step(w, x, y, opt2)
Calling `train_step` with different optimizer...
Caught expected exception 
  <class 'ValueError'>:
Traceback (most recent call last):
  File "/tmpfs/tmp/ipykernel_184655/", line 8, in assert_raises
  File "/tmpfs/tmp/ipykernel_184655/", line 18, in <module>
    train_step(w, x, y, opt2)
ValueError: in user code:

    File "/tmpfs/tmp/ipykernel_184655/", line 9, in train_step  *
        optimizer.apply_gradients(zip(gradients, [w]))
    File "/tmpfs/src/tf_docs_env/lib/python3.9/site-packages/keras/optimizers/optimizer_experimental/", line 1140, in apply_gradients  **
        return super().apply_gradients(grads_and_vars, name=name)
    File "/tmpfs/src/tf_docs_env/lib/python3.9/site-packages/keras/optimizers/optimizer_experimental/", line 621, in apply_gradients
    File "/tmpfs/src/tf_docs_env/lib/python3.9/site-packages/keras/optimizers/optimizer_experimental/", line 139, in build
    File "/tmpfs/src/tf_docs_env/lib/python3.9/site-packages/keras/optimizers/optimizer_experimental/", line 1072, in add_variable_from_reference
        return super().add_variable_from_reference(
    File "/tmpfs/src/tf_docs_env/lib/python3.9/site-packages/keras/optimizers/optimizer_experimental/", line 496, in add_variable_from_reference
        variable = tf.Variable(

    ValueError: tf.function only supports singleton tf.Variables created on the first call. Make sure the tf.Variable is only created once or created outside tf.function. See for more information.

훈련 중에 옵티마이저를 변경해야 하는 경우, 해결 방법은 각 옵티마이저에 새 Function을 만들어 ConcreteFunction을 직접 호출하는 것입니다.

opt1 = tf.keras.optimizers.Adam(learning_rate = 1e-2)
opt2 = tf.keras.optimizers.Adam(learning_rate = 1e-3)

# Not a tf.function.
def train_step(w, x, y, optimizer):
   with tf.GradientTape() as tape:
       L = tf.reduce_sum(tf.square(w*x - y))
   gradients = tape.gradient(L, [w])
   optimizer.apply_gradients(zip(gradients, [w]))

w = tf.Variable(2.)
x = tf.constant([-1.])
y = tf.constant([2.])

# Make a new Function and ConcreteFunction for each optimizer.
train_step_1 = tf.function(train_step).get_concrete_function(w, x, y, opt1)
train_step_2 = tf.function(train_step).get_concrete_function(w, x, y, opt2)
for i in range(10):
  if i % 2 == 0:
    train_step_1(w, x, y) # `opt1` is not used as a parameter. 
    train_step_2(w, x, y) # `opt2` is not used as a parameter.

여러 Keras 모델과 함께 사용

동일한 Function에 다른 모델 인스턴스를 전달할 때에도 ValueError: tf.function only supports singleton tf.Variables created on the first call.이 발생할 수 있습니다.

이 오류는 Keras 모델(입력 형상이 정의되지 않음)과 Keras 레이어가 처음 호출될 때 tf.Variables를 만들기 때문에 발생합니다. 이미 호출된 Function 내에서 이러한 변수를 초기화하려고 할 수도 있습니다. 이 오류를 방지하려면를 호출하여 모델을 훈련하기 전에 모든 가중치를 초기화합니다.

더 읽을 거리

Function을 내보내고 로드하는 방법을 알고 싶은 경우 SavedModel 가이드를 참조합니다. 추적 후 수행되는 그래프 최적화에 대해 자세히 알아보려면 Grappler 가이드를 참조합니다. 데이터 파이프라인을 최적화하고 모델을 프로파일링하는 방법을 알아보려면 프로파일러 가이드를 참조합니다.