trừu tượng
Trong chuyên mục này, chúng tôi trình bày cách sử dụng các trình tối ưu hóa khác nhau được triển khai trong TensorFlow Probability.
Phụ thuộc & Điều kiện tiên quyết
Nhập khẩu
%matplotlib inline
import contextlib
import functools
import os
import time
import numpy as np
import pandas as pd
import scipy as sp
from six.moves import urllib
from sklearn import preprocessing
import tensorflow.compat.v2 as tf
import tensorflow_probability as tfp
Trình tối ưu hóa BFGS và L-BFGS
Phương pháp Quasi Newton là một loại thuật toán tối ưu hóa bậc nhất phổ biến. Các phương pháp này sử dụng một giá trị gần đúng xác định dương với Hessian chính xác để tìm hướng tìm kiếm.
Thuật toán Broyden-Fletcher-Goldfarb-Shanno ( BFGS ) là một thực hiện cụ thể của ý tưởng chung này. Nó được áp dụng và là phương pháp được lựa chọn cho các vấn đề vừa nới gradient là liên tục ở khắp mọi nơi (ví dụ như tuyến tính hồi quy với một phạt).
L-BFGS là một phiên bản giới hạn bộ nhớ của BFGS đó là hữu ích để giải quyết những vấn đề lớn mà các ma trận Hessian không thể được tính toán với chi phí hợp lý hay không thưa thớt. Thay vì lưu trữ đầy đủ dày đặc xấp xỉ của ma trận Hessian, họ chỉ tiết kiệm một vài vectơ có độ dài đại diện cho những xấp xỉ ngầm.
Chức năng trợ giúp
CACHE_DIR = os.path.join(os.sep, 'tmp', 'datasets')
def make_val_and_grad_fn(value_fn):
def val_and_grad(x):
return tfp.math.value_and_gradient(value_fn, x)
return val_and_grad
def timed_execution():
t0 = time.time()
dt = time.time() - t0
print('Evaluation took: %f seconds' % dt)
def np_value(tensor):
"""Get numpy value out of possibly nested tuple of tensors."""
if isinstance(tensor, tuple):
return type(tensor)(*(np_value(t) for t in tensor))
return tensor.numpy()
def run(optimizer):
"""Run an optimizer and measure it's evaluation time."""
optimizer() # Warmup.
with timed_execution():
result = optimizer()
return np_value(result)
L-BFGS trên một hàm bậc hai đơn giản
# Fix numpy seed for reproducibility
# The objective must be supplied as a function that takes a single
# (Tensor) argument and returns a tuple. The first component of the
# tuple is the value of the objective at the supplied point and the
# second value is the gradient at the supplied point. The value must
# be a scalar and the gradient must have the same shape as the
# supplied argument.
# The `make_val_and_grad_fn` decorator helps transforming a function
# returning the objective value into one that returns both the gradient
# and the value. It also works for both eager and graph mode.
dim = 10
minimum = np.ones([dim])
scales = np.exp(np.random.randn(dim))
def quadratic(x):
return tf.reduce_sum(scales * (x - minimum) ** 2, axis=-1)
# The minimization routine also requires you to supply an initial
# starting point for the search. For this example we choose a random
# starting point.
start = np.random.randn(dim)
# Finally an optional argument called tolerance let's you choose the
# stopping point of the search. The tolerance specifies the maximum
# (supremum) norm of the gradient vector at which the algorithm terminates.
# If you don't have a specific need for higher or lower accuracy, leaving
# this parameter unspecified (and hence using the default value of 1e-8)
# should be good enough.
tolerance = 1e-10
def quadratic_with_lbfgs():
return tfp.optimizer.lbfgs_minimize(
results = run(quadratic_with_lbfgs)
# The optimization results contain multiple pieces of information. The most
# important fields are: 'converged' and 'position'.
# Converged is a boolean scalar tensor. As the name implies, it indicates
# whether the norm of the gradient at the final point was within tolerance.
# Position is the location of the minimum found. It is important to check
# that converged is True before using the value of the position.
print('L-BFGS Results')
print('Converged:', results.converged)
print('Location of the minimum:', results.position)
print('Number of iterations:', results.num_iterations)
Evaluation took: 0.014586 seconds L-BFGS Results Converged: True Location of the minimum: [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.] Number of iterations: 10
Vấn đề tương tự với BFGS
def quadratic_with_bfgs():
return tfp.optimizer.bfgs_minimize(
results = run(quadratic_with_bfgs)
print('BFGS Results')
print('Converged:', results.converged)
print('Location of the minimum:', results.position)
print('Number of iterations:', results.num_iterations)
Evaluation took: 0.010468 seconds BFGS Results Converged: True Location of the minimum: [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.] Number of iterations: 10
Hồi quy tuyến tính với hình phạt L1: Dữ liệu về ung thư tuyến tiền liệt
Ví dụ từ Sách: The Elements of Learning thống kê, Khai thác dữ liệu, suy luận và Prediction bởi Trevor Hastie, Robert Tibshirani và Jerome Friedman.
Lưu ý rằng đây là một vấn đề tối ưu hóa với hình phạt L1.
Nhận tập dữ liệu
def cache_or_download_file(cache_dir, url_base, filename):
"""Read a cached file or download it."""
filepath = os.path.join(cache_dir, filename)
return filepath
if not
url = url_base + filename
print("Downloading {url} to {filepath}.".format(url=url, filepath=filepath))
urllib.request.urlretrieve(url, filepath)
return filepath
def get_prostate_dataset(cache_dir=CACHE_DIR):
"""Download the prostate dataset and read as Pandas dataframe."""
url_base = ''
return pd.read_csv(
cache_or_download_file(cache_dir, url_base, ''),
delim_whitespace=True, index_col=0)
prostate_df = get_prostate_dataset()
Downloading to /tmp/datasets/
Định nghĩa vấn đề
feature_names = ['lcavol', 'lweight', 'age', 'lbph', 'svi', 'lcp',
'gleason', 'pgg45']
# Normalize features
scalar = preprocessing.StandardScaler()
prostate_df[feature_names] = pd.DataFrame(
# select training set
prostate_df_train = prostate_df[prostate_df.train == 'T']
# Select features and labels
features = prostate_df_train[feature_names]
labels = prostate_df_train[['lpsa']]
# Create tensors
feat = tf.constant(features.values, dtype=tf.float64)
lab = tf.constant(labels.values, dtype=tf.float64)
dtype = feat.dtype
regularization = 0 # regularization parameter
dim = 8 # number of features
# We pick a random starting point for the search
start = np.random.randn(dim + 1)
def regression_loss(params):
"""Compute loss for linear regression model with L1 penalty
params: A real tensor of shape [dim + 1]. The zeroth component
is the intercept term and the rest of the components are the
beta coefficients.
The mean square error loss including L1 penalty.
params = tf.squeeze(params)
intercept, beta = params[0], params[1:]
pred = tf.matmul(feat, tf.expand_dims(beta, axis=-1)) + intercept
mse_loss = tf.reduce_sum(
tf.losses.mean_squared_error(y_true=lab, y_pred=pred), tf.float64))
l1_penalty = regularization * tf.reduce_sum(tf.abs(beta))
total_loss = mse_loss + l1_penalty
return total_loss
Giải quyết bằng L-BFGS
Phù hợp bằng cách sử dụng L-BFGS. Mặc dù hình phạt L1 đưa ra sự gián đoạn phái sinh, nhưng trên thực tế, L-BFGS vẫn hoạt động khá tốt.
def l1_regression_with_lbfgs():
return tfp.optimizer.lbfgs_minimize(
results = run(l1_regression_with_lbfgs)
minimum = results.position
fitted_intercept = minimum[0]
fitted_beta = minimum[1:]
print('L-BFGS Results')
print('Converged:', results.converged)
print('Intercept: Fitted ({})'.format(fitted_intercept))
print('Beta: Fitted {}'.format(fitted_beta))
Evaluation took: 0.017987 seconds L-BFGS Results Converged: True Intercept: Fitted (2.3879985744556484) Beta: Fitted [ 0.68626215 0.28193532 -0.17030254 0.10799274 0.33634988 -0.24888523 0.11992237 0.08689026]
Giải quyết với Nelder Mead
Các phương pháp Nelder Mead là một trong những phương pháp giảm thiểu nhất phổ biến phái sinh miễn phí. Trình tối ưu hóa này không sử dụng thông tin về độ dốc và không đưa ra giả định về khả năng khác biệt của hàm mục tiêu; do đó nó thích hợp cho các hàm mục tiêu không trơn tru, ví dụ các bài toán tối ưu hóa với hình phạt L1.
Đối với một bài toán tối ưu trong -dimensions nó duy trì một bộ giải pháp ứng cử viên mà span một simplex không thoái hóa. Nó liên tiếp sửa đổi đơn giản dựa trên một tập hợp các chuyển động (phản xạ, mở rộng, co lại và co lại) bằng cách sử dụng các giá trị hàm tại mỗi đỉnh.
# Nelder mead expects an initial_vertex of shape [n + 1, 1].
initial_vertex = tf.expand_dims(tf.constant(start, dtype=dtype), axis=-1)
def l1_regression_with_nelder_mead():
return tfp.optimizer.nelder_mead_minimize(
results = run(l1_regression_with_nelder_mead)
minimum = results.position.reshape([-1])
fitted_intercept = minimum[0]
fitted_beta = minimum[1:]
print('Nelder Mead Results')
print('Converged:', results.converged)
print('Intercept: Fitted ({})'.format(fitted_intercept))
print('Beta: Fitted {}'.format(fitted_beta))
Evaluation took: 0.325643 seconds Nelder Mead Results Converged: True Intercept: Fitted (2.387998456121595) Beta: Fitted [ 0.68626266 0.28193456 -0.17030291 0.10799375 0.33635132 -0.24888703 0.11992244 0.08689023]
Hồi quy logistic với hình phạt L2
Đối với ví dụ này, chúng tôi tạo tập dữ liệu tổng hợp để phân loại và sử dụng trình tối ưu hóa L-BFGS để phù hợp với các tham số.
dim = 5 # The number of features
n_obs = 10000 # The number of observations
betas = np.random.randn(dim) # The true beta
intercept = np.random.randn() # The true intercept
features = np.random.randn(n_obs, dim) # The feature matrix
probs = sp.special.expit(
np.matmul(features, np.expand_dims(betas, -1)) + intercept)
labels = sp.stats.bernoulli.rvs(probs) # The true labels
regularization = 0.8
feat = tf.constant(features)
lab = tf.constant(labels, dtype=feat.dtype)
def negative_log_likelihood(params):
"""Negative log likelihood for logistic model with L2 penalty
params: A real tensor of shape [dim + 1]. The zeroth component
is the intercept term and the rest of the components are the
beta coefficients.
The negative log likelihood plus the penalty term.
intercept, beta = params[0], params[1:]
logit = tf.matmul(feat, tf.expand_dims(beta, -1)) + intercept
log_likelihood = tf.reduce_sum(tf.nn.sigmoid_cross_entropy_with_logits(
labels=lab, logits=logit))
l2_penalty = regularization * tf.reduce_sum(beta ** 2)
total_loss = log_likelihood + l2_penalty
return total_loss
start = np.random.randn(dim + 1)
def l2_regression_with_lbfgs():
return tfp.optimizer.lbfgs_minimize(
results = run(l2_regression_with_lbfgs)
minimum = results.position
fitted_intercept = minimum[0]
fitted_beta = minimum[1:]
print('Converged:', results.converged)
print('Intercept: Fitted ({}), Actual ({})'.format(fitted_intercept, intercept))
print('Beta:\n\tFitted {},\n\tActual {}'.format(fitted_beta, betas))
Evaluation took: 0.056751 seconds Converged: True Intercept: Fitted (1.4111415084244365), Actual (1.3934058329729904) Beta: Fitted [-0.18016612 0.53121578 -0.56420632 -0.5336374 2.00499675], Actual [-0.20470766 0.47894334 -0.51943872 -0.5557303 1.96578057]
Hỗ trợ hàng loạt
Cả BFGS và L-BFGS đều hỗ trợ tính toán theo đợt, chẳng hạn để tối ưu hóa một chức năng đơn lẻ từ nhiều điểm xuất phát khác nhau; hoặc nhiều hàm tham số từ một điểm duy nhất.
Một chức năng, nhiều điểm bắt đầu
Chức năng của Himmelblau là một trường hợp kiểm tra tối ưu hóa tiêu chuẩn. Chức năng được cung cấp bởi:
Hàm có bốn cực tiểu đặt tại:
- (3, 2),
- (-2,805118, 3,131312),
- (-3.779310, -3.283186),
- (3,584428, -1,848126).
Tất cả những cực tiểu này có thể đạt được từ những điểm xuất phát thích hợp.
# The function to minimize must take as input a tensor of shape [..., n]. In
# this n=2 is the size of the domain of the input and [...] are batching
# dimensions. The return value must be of shape [...], i.e. a batch of scalars
# with the objective value of the function evaluated at each input point.
def himmelblau(coord):
x, y = coord[..., 0], coord[..., 1]
return (x * x + y - 11) ** 2 + (x + y * y - 7) ** 2
starts = tf.constant([[1, 1],
[-2, 2],
[-1, -1],
[1, -2]], dtype='float64')
# The stopping_condition allows to further specify when should the search stop.
# The default, tfp.optimizer.converged_all, will proceed until all points have
# either converged or failed. There is also a tfp.optimizer.converged_any to
# stop as soon as the first point converges, or all have failed.
def batch_multiple_starts():
return tfp.optimizer.lbfgs_minimize(
himmelblau, initial_position=starts,
results = run(batch_multiple_starts)
print('Converged:', results.converged)
print('Minima:', results.position)
Evaluation took: 0.019095 seconds Converged: [ True True True True] Minima: [[ 3. 2. ] [-2.80511809 3.13131252] [-3.77931025 -3.28318599] [ 3.58442834 -1.84812653]]
Nhiều chức năng
Với mục đích trình diễn, trong ví dụ này, chúng tôi đồng thời tối ưu hóa một số lượng lớn các bát bậc hai được tạo ngẫu nhiên có chiều cao.
dim = 100
batches = 500
minimum = np.random.randn(batches, dim)
scales = np.exp(np.random.randn(batches, dim))
def quadratic(x):
return tf.reduce_sum(input_tensor=scales * (x - minimum)**2, axis=-1)
# Make all starting points (1, 1, ..., 1). Note not all starting points need
# to be the same.
start = tf.ones((batches, dim), dtype='float64')
def batch_multiple_functions():
return tfp.optimizer.lbfgs_minimize(
quadratic, initial_position=start,
results = run(batch_multiple_functions)
print('All converged:', np.all(results.converged))
print('Largest error:', np.max(results.position - minimum))
Evaluation took: 1.994132 seconds All converged: True Largest error: 4.4131473142527966e-08