Witaj w poradniku skład modelu Do decyzji TensorFlow Lasów (TF-DF). Notebook ten pokazuje, jak komponować wielokrotnego las decyzji i modeli sieci neuronowych razem wykorzystując wspólną warstwę przebiegu wyprzedzającego i API funkcjonalny Keras .
Możesz chcieć skomponować modele razem, aby poprawić wydajność predykcyjną (składanie), aby jak najlepiej wykorzystać różne technologie modelowania (heterogeniczne składanie modeli), trenować różne części modelu na różnych zestawach danych (np. uczenie wstępne) lub utworzyć model skumulowany (np. model operuje na przewidywaniach innego modelu).
Ten samouczek obejmuje zaawansowany przypadek użycia kompozycji modelu przy użyciu funkcjonalnego interfejsu API. Można znaleźć przykłady dla prostszych scenariuszy modelu składu w „cecha przerób” w niniejszym poradniku oraz w „używając pretrained tekst osadzania” w tym samouczku .
Oto struktura modelu, który zbudujesz:
!pip install graphviz -U --quiet
from graphviz import Source
digraph G {
raw_data [label="Input features"];
preprocess_data [label="Learnable NN pre-processing", shape=rect];
raw_data -> preprocess_data
subgraph cluster_0 {
a1[label="NN layer", shape=rect];
b1[label="NN layer", shape=rect];
a1 -> b1;
label = "Model #1";
subgraph cluster_1 {
a2[label="NN layer", shape=rect];
b2[label="NN layer", shape=rect];
a2 -> b2;
label = "Model #2";
subgraph cluster_2 {
a3[label="Decision Forest", shape=rect];
label = "Model #3";
subgraph cluster_3 {
a4[label="Decision Forest", shape=rect];
label = "Model #4";
preprocess_data -> a1;
preprocess_data -> a2;
preprocess_data -> a3;
preprocess_data -> a4;
b1 -> aggr;
b2 -> aggr;
a3 -> aggr;
a4 -> aggr;
aggr [label="Aggregation (mean)", shape=rect]
aggr -> predictions
Twój skomponowany model ma trzy etapy:
- Pierwszym etapem jest warstwa przetwarzania wstępnego złożona z sieci neuronowej i wspólna dla wszystkich modeli w kolejnym etapie. W praktyce taka warstwa przetwarzania wstępnego może być albo wstępnie wytrenowanym osadzaniem w celu dostrojenia, albo losowo zainicjowaną siecią neuronową.
- Drugi etap to zespół dwóch modeli lasu decyzyjnego i dwóch sieci neuronowych.
- Ostatni etap uśrednia przewidywania modeli w drugim etapie. Nie zawiera żadnych wag, których można się nauczyć.
Sieci neuronowe są przeszkoleni z wykorzystaniem algorytmu wstecznej propagacji błędów i zejście gradientu. Algorytm ten ma dwie ważne właściwości: (1) Warstwa sieci neuronowej może być wytrenowana, jeśli otrzyma gradient strat (a dokładniej gradient strat zgodny z wyjściem warstwy) oraz (2) algorytm „przesyła” gradient strat z wyjścia warstwy do wejścia warstwy (jest to „zasada łańcucha”). Z tych dwóch powodów Backpropagation może trenować razem wiele warstw sieci neuronowych ułożonych jedna na drugiej.
W tym przykładzie, lasy decyzyjne są przeszkoleni z Losowe Las algorytmu (RF). W przeciwieństwie do propagacji wstecznej, trening RF nie „przekazuje” gradientu strat z wyjścia do wejścia. Z tego powodu klasyczny algorytm RF nie może być używany do trenowania lub dostrajania sieci neuronowej znajdującej się pod spodem. Innymi słowy, etapy „lasu decyzyjnego” nie mogą być używane do trenowania „uczącego się bloku wstępnego przetwarzania sieci NN”.
- Trenuj etap przetwarzania wstępnego i sieci neuronowych.
- Trenuj etapy decyzyjne lasu.
Zainstaluj lasy decyzyjne TensorFlow
Zainstaluj TF-DF, uruchamiając następującą komórkę.
pip install tensorflow_decision_forests -U --quiet
Zainstalować Wurlitzer , aby wyświetlić szczegółowe dzienniki treningowe. Jest to potrzebne tylko w notebookach.
pip install wurlitzer -U --quiet
Importuj biblioteki
import tensorflow_decision_forests as tfdf
import os
import numpy as np
import pandas as pd
import tensorflow as tf
import math
import matplotlib.pyplot as plt
from wurlitzer import sys_pipes
from colabtools.googlelog import CaptureLog as sys_pipes
from IPython.core.magic import register_line_magic
from IPython.display import Javascript
Zbiór danych
W tym samouczku użyjesz prostego syntetycznego zestawu danych, aby ułatwić interpretację ostatecznego modelu.
def make_dataset(num_examples, num_features, seed=1234):
features = np.random.uniform(-1, 1, size=(num_examples, num_features))
noise = np.random.uniform(size=(num_examples))
left_side = np.sqrt(
np.sum(np.multiply(np.square(features[:, 0:2]), [1, 2]), axis=1))
right_side = features[:, 2] * 0.7 + np.sin(
features[:, 3] * 10) * 0.5 + noise * 0.0 + 0.5
labels = left_side <= right_side
return features, labels.astype(int)
Wygeneruj kilka przykładów:
make_dataset(num_examples=5, num_features=4)
(array([[-0.6169611 , 0.24421754, -0.12454452, 0.57071717], [ 0.55995162, -0.45481479, -0.44707149, 0.60374436], [ 0.91627871, 0.75186527, -0.28436546, 0.00199025], [ 0.36692587, 0.42540405, -0.25949849, 0.12239237], [ 0.00616633, -0.9724631 , 0.54565324, 0.76528238]]), array([0, 0, 0, 1, 0]))
Możesz je również wykreślić, aby zorientować się w syntetycznym wzorze:
plot_features, plot_label = make_dataset(num_examples=50000, num_features=4)
plt.rcParams["figure.figsize"] = [8, 8]
common_args = dict(c=plot_label, s=1.0, alpha=0.5)
plt.subplot(2, 2, 1)
plt.scatter(plot_features[:, 0], plot_features[:, 1], **common_args)
plt.subplot(2, 2, 2)
plt.scatter(plot_features[:, 1], plot_features[:, 2], **common_args)
plt.subplot(2, 2, 3)
plt.scatter(plot_features[:, 0], plot_features[:, 2], **common_args)
plt.subplot(2, 2, 4)
plt.scatter(plot_features[:, 0], plot_features[:, 3], **common_args)
<matplotlib.collections.PathCollection at 0x7f6b78d20e90>
Zauważ, że ten wzór jest gładki i nie jest wyrównany do osi. Będzie to korzystne dla modeli sieci neuronowych. Dzieje się tak dlatego, że sieci neuronowej łatwiej jest mieć okrągłe i nie wyrównane granice decyzyjne niż drzewo decyzyjne.
Z drugiej strony będziemy trenować model na małych zbiorach danych z 2500 przykładami. Będzie to korzystne dla decyzyjnych modeli lasów. Dzieje się tak, ponieważ lasy decyzyjne są znacznie wydajniejsze, wykorzystując wszystkie dostępne informacje z przykładów (lasy decyzyjne są „wydajne w próbie”).
Nasz zespół sieci neuronowych i lasów decyzyjnych wykorzysta to, co najlepsze z obu światów.
Stwórzmy trenować i testować tf.data.Dataset
def make_tf_dataset(batch_size=64, **args):
features, labels = make_dataset(**args)
return tf.data.Dataset.from_tensor_slices(
(features, labels)).batch(batch_size)
num_features = 10
train_dataset = make_tf_dataset(
num_examples=2500, num_features=num_features, batch_size=64, seed=1234)
test_dataset = make_tf_dataset(
num_examples=10000, num_features=num_features, batch_size=64, seed=5678)
Struktura modelu
Zdefiniuj strukturę modelu w następujący sposób:
# Input features.
raw_features = tf.keras.layers.Input(shape=(num_features,))
# Stage 1
# =======
# Common learnable pre-processing
preprocessor = tf.keras.layers.Dense(10, activation=tf.nn.relu6)
preprocess_features = preprocessor(raw_features)
# Stage 2
# =======
# Model #1: NN
m1_z1 = tf.keras.layers.Dense(5, activation=tf.nn.relu6)(preprocess_features)
m1_pred = tf.keras.layers.Dense(1, activation=tf.nn.sigmoid)(m1_z1)
# Model #2: NN
m2_z1 = tf.keras.layers.Dense(5, activation=tf.nn.relu6)(preprocess_features)
m2_pred = tf.keras.layers.Dense(1, activation=tf.nn.sigmoid)(m2_z1)
def seed_advanced_argument(seed):
"""Create a seed argument for a TF-DF model.
TODO(gbm): Surface the "seed" argument to the model constructor directly.
return tfdf.keras.AdvancedArguments(
# Model #3: DF
model_3 = tfdf.keras.RandomForestModel(
num_trees=1000, advanced_arguments=seed_advanced_argument(1234))
m3_pred = model_3(preprocess_features)
# Model #4: DF
model_4 = tfdf.keras.RandomForestModel(
#split_axis="SPARSE_OBLIQUE", # Uncomment this line to increase the quality of this model
m4_pred = model_4(preprocess_features)
# Since TF-DF uses deterministic learning algorithms, you should set the model's
# training seed to different values otherwise both
# `tfdf.keras.RandomForestModel` will be exactly the same.
# Stage 3
# =======
mean_nn_only = tf.reduce_mean(tf.stack([m1_pred, m2_pred], axis=0), axis=0)
mean_nn_and_df = tf.reduce_mean(
tf.stack([m1_pred, m2_pred, m3_pred, m4_pred], axis=0), axis=0)
# Keras Models
# ============
ensemble_nn_only = tf.keras.models.Model(raw_features, mean_nn_only)
ensemble_nn_and_df = tf.keras.models.Model(raw_features, mean_nn_and_df)
Zanim zaczniesz trenować model, możesz go wykreślić, aby sprawdzić, czy jest podobny do początkowego diagramu.
from keras.utils.vis_utils import plot_model
plot_model(ensemble_nn_and_df, to_file="/tmp/model.png", show_shapes=True)
Szkolenie modelowe
Najpierw wytrenuj wstępne przetwarzanie i dwie warstwy sieci neuronowej za pomocą algorytmu wstecznej propagacji błędów.
ensemble_nn_only.fit(train_dataset, epochs=20, validation_data=test_dataset)
Epoch 1/20 40/40 [==============================] - 1s 13ms/step - loss: 0.6115 - accuracy: 0.7308 - val_loss: 0.5857 - val_accuracy: 0.7407 Epoch 2/20 40/40 [==============================] - 0s 9ms/step - loss: 0.5645 - accuracy: 0.7484 - val_loss: 0.5487 - val_accuracy: 0.7391 Epoch 3/20 40/40 [==============================] - 0s 9ms/step - loss: 0.5310 - accuracy: 0.7496 - val_loss: 0.5237 - val_accuracy: 0.7392 Epoch 4/20 40/40 [==============================] - 0s 9ms/step - loss: 0.5074 - accuracy: 0.7500 - val_loss: 0.5055 - val_accuracy: 0.7391 Epoch 5/20 40/40 [==============================] - 0s 9ms/step - loss: 0.4887 - accuracy: 0.7496 - val_loss: 0.4901 - val_accuracy: 0.7397 Epoch 6/20 40/40 [==============================] - 0s 9ms/step - loss: 0.4725 - accuracy: 0.7520 - val_loss: 0.4763 - val_accuracy: 0.7440 Epoch 7/20 40/40 [==============================] - 0s 9ms/step - loss: 0.4585 - accuracy: 0.7584 - val_loss: 0.4644 - val_accuracy: 0.7542 Epoch 8/20 40/40 [==============================] - 0s 9ms/step - loss: 0.4470 - accuracy: 0.7700 - val_loss: 0.4544 - val_accuracy: 0.7682 Epoch 9/20 40/40 [==============================] - 0s 9ms/step - loss: 0.4374 - accuracy: 0.7804 - val_loss: 0.4462 - val_accuracy: 0.7789 Epoch 10/20 40/40 [==============================] - 0s 9ms/step - loss: 0.4297 - accuracy: 0.7848 - val_loss: 0.4395 - val_accuracy: 0.7865 Epoch 11/20 40/40 [==============================] - 0s 9ms/step - loss: 0.4232 - accuracy: 0.7904 - val_loss: 0.4339 - val_accuracy: 0.7933 Epoch 12/20 40/40 [==============================] - 0s 10ms/step - loss: 0.4176 - accuracy: 0.7952 - val_loss: 0.4289 - val_accuracy: 0.7963 Epoch 13/20 40/40 [==============================] - 0s 9ms/step - loss: 0.4126 - accuracy: 0.7992 - val_loss: 0.4243 - val_accuracy: 0.8010 Epoch 14/20 40/40 [==============================] - 0s 9ms/step - loss: 0.4078 - accuracy: 0.8052 - val_loss: 0.4199 - val_accuracy: 0.8033 Epoch 15/20 40/40 [==============================] - 0s 9ms/step - loss: 0.4029 - accuracy: 0.8096 - val_loss: 0.4155 - val_accuracy: 0.8067 Epoch 16/20 40/40 [==============================] - 0s 9ms/step - loss: 0.3981 - accuracy: 0.8132 - val_loss: 0.4109 - val_accuracy: 0.8099 Epoch 17/20 40/40 [==============================] - 0s 9ms/step - loss: 0.3932 - accuracy: 0.8152 - val_loss: 0.4061 - val_accuracy: 0.8129 Epoch 18/20 40/40 [==============================] - 0s 9ms/step - loss: 0.3883 - accuracy: 0.8208 - val_loss: 0.4012 - val_accuracy: 0.8149 Epoch 19/20 40/40 [==============================] - 0s 9ms/step - loss: 0.3832 - accuracy: 0.8232 - val_loss: 0.3963 - val_accuracy: 0.8168 Epoch 20/20 40/40 [==============================] - 0s 10ms/step - loss: 0.3783 - accuracy: 0.8276 - val_loss: 0.3912 - val_accuracy: 0.8203 CPU times: user 12.1 s, sys: 2.14 s, total: 14.2 s Wall time: 8.54 s <keras.callbacks.History at 0x7f6b181d7450>
Oszacujmy przetwarzanie wstępne i część tylko z dwiema sieciami neuronowymi:
evaluation_nn_only = ensemble_nn_only.evaluate(test_dataset, return_dict=True)
print("Accuracy (NN #1 and #2 only): ", evaluation_nn_only["accuracy"])
print("Loss (NN #1 and #2 only): ", evaluation_nn_only["loss"])
157/157 [==============================] - 0s 2ms/step - loss: 0.3912 - accuracy: 0.8203 Accuracy (NN #1 and #2 only): 0.8202999830245972 Loss (NN #1 and #2 only): 0.39124569296836853
Wytrenujmy dwa komponenty Lasu Decyzyjnego (jeden po drugim).
train_dataset_with_preprocessing = train_dataset.map(lambda x,y: (preprocessor(x), y))
test_dataset_with_preprocessing = test_dataset.map(lambda x,y: (preprocessor(x), y))
I oceńmy Lasy Decyzyjne indywidualnie.
evaluation_df3_only = model_3.evaluate(
test_dataset_with_preprocessing, return_dict=True)
evaluation_df4_only = model_4.evaluate(
test_dataset_with_preprocessing, return_dict=True)
print("Accuracy (DF #3 only): ", evaluation_df3_only["accuracy"])
print("Accuracy (DF #4 only): ", evaluation_df4_only["accuracy"])
157/157 [==============================] - 2s 8ms/step - loss: 0.0000e+00 - accuracy: 0.8218 157/157 [==============================] - 1s 8ms/step - loss: 0.0000e+00 - accuracy: 0.8223 Accuracy (DF #3 only): 0.8217999935150146 Accuracy (DF #4 only): 0.8223000168800354
Oceńmy cały skład modelu:
loss=tf.keras.losses.BinaryCrossentropy(), metrics=["accuracy"])
evaluation_nn_and_df = ensemble_nn_and_df.evaluate(
test_dataset, return_dict=True)
print("Accuracy (2xNN and 2xDF): ", evaluation_nn_and_df["accuracy"])
print("Loss (2xNN and 2xDF): ", evaluation_nn_and_df["loss"])
157/157 [==============================] - 2s 8ms/step - loss: 0.3707 - accuracy: 0.8236 Accuracy (2xNN and 2xDF): 0.8235999941825867 Loss (2xNN and 2xDF): 0.3706760108470917
Na koniec dostosujmy nieco bardziej warstwę sieci neuronowej. Zwróć uwagę, że nie dopracowujemy wstępnie wytrenowanego osadzania, ponieważ modele DF od tego zależą (chyba że będziemy je później przeszkolić).
Podsumowując, masz:
print(f"Accuracy (NN #1 and #2 only):\t{evaluation_nn_only['accuracy']:.6f}")
print(f"Accuracy (DF #3 only):\t\t{evaluation_df3_only['accuracy']:.6f}")
print(f"Accuracy (DF #4 only):\t\t{evaluation_df4_only['accuracy']:.6f}")
print(f"Accuracy (2xNN and 2xDF):\t{evaluation_nn_and_df['accuracy']:.6f}")
def delta_percent(src_eval, key):
src_acc = src_eval["accuracy"]
final_acc = evaluation_nn_and_df["accuracy"]
increase = final_acc - src_acc
print(f"\t\t\t\t {increase:+.6f} over {key}")
delta_percent(evaluation_nn_only, "NN #1 and #2 only")
delta_percent(evaluation_df3_only, "DF #3 only")
delta_percent(evaluation_df4_only, "DF #4 only")
Accuracy (NN #1 and #2 only): 0.820300 Accuracy (DF #3 only): 0.821800 Accuracy (DF #4 only): 0.822300 ---------------------------------------- Accuracy (2xNN and 2xDF): 0.823600 +0.003300 over NN #1 and #2 only +0.001800 over DF #3 only +0.001300 over DF #4 only
Tutaj widać, że skomponowany model wypada lepiej niż jego poszczególne części. Dlatego tak dobrze działają zespoły.
Co dalej?
W tym przykładzie pokazano, jak połączyć lasy decyzyjne z sieciami neuronowymi. Dodatkowym krokiem byłoby dalsze wspólne szkolenie sieci neuronowej i lasów decyzyjnych.
Ponadto, dla jasności, lasy decyzyjne otrzymały tylko wstępnie przetworzony wkład. Jednak lasy decyzyjne są generalnie świetne i pochłaniają surowe dane. Model zostałby ulepszony poprzez dodanie surowych cech do modeli decyzyjnych lasu.
W tym przykładzie ostateczny model jest średnią przewidywań poszczególnych modeli. To rozwiązanie działa dobrze, jeśli wszystkie modele działają mniej więcej przy tym samym. Jeśli jednak jeden z podmodeli jest bardzo dobry, agregowanie go z innymi modelami może w rzeczywistości być szkodliwe (lub odwrotnie; na przykład spróbuj zmniejszyć liczbę przykładów z 1 tys. i zobacz, jak bardzo szkodzi to sieciom neuronowym; lub włączyć SPARSE_OBLIQUE
rozłam w drugim modelu Losowe Leśnej).