Đề xuất phim: truy xuất với chiến lược phân phối

Trong hướng dẫn này, chúng ta sẽ đào tạo các mô hình phục hồi giống như chúng tôi đã làm trong hồi cơ bản hướng dẫn, nhưng với chiến lược phân phối.

Sắp tới:

  1. Nhận dữ liệu của chúng tôi và chia nó thành một tập hợp đào tạo và kiểm tra.
  2. Thiết lập hai GPU ảo và TensorFlow MirroredStrategy.
  3. Triển khai mô hình truy xuất bằng MirroredStrategy.
  4. Phù hợp với nó với MirrorredStrategy và đánh giá nó.

Nhập khẩu

Đầu tiên chúng ta hãy lấy hàng nhập khẩu của chúng ta ra khỏi con đường.

pip install -q tensorflow-recommenders
pip install -q --upgrade tensorflow-datasets
import os
import pprint
import tempfile

from typing import Dict, Text

import numpy as np
import tensorflow as tf
import tensorflow_datasets as tfds
import tensorflow_recommenders as tfrs

Chuẩn bị tập dữ liệu

Chúng tôi chuẩn bị các dữ liệu chính xác theo cùng một cách như chúng ta làm trong hồi cơ bản hướng dẫn.

# Ratings data.
= tfds.load("movielens/100k-ratings", split="train")
# Features of all the available movies.
= tfds.load("movielens/100k-movies", split="train")

for x in ratings.take(1).as_numpy_iterator():

for x in movies.take(1).as_numpy_iterator():

= ratings.map(lambda x: {
"movie_title": x["movie_title"],
"user_id": x["user_id"],
= movies.map(lambda x: x["movie_title"])

= ratings.shuffle(100_000, seed=42, reshuffle_each_iteration=False)

= shuffled.take(80_000)
= shuffled.skip(80_000).take(20_000)

= movies.batch(1_000)
= ratings.batch(1_000_000).map(lambda x: x["user_id"])

= np.unique(np.concatenate(list(movie_titles)))
= np.unique(np.concatenate(list(user_ids)))

{'bucketized_user_age': 45.0,
 'movie_genres': array([7]),
 'movie_id': b'357',
 'movie_title': b"One Flew Over the Cuckoo's Nest (1975)",
 'raw_user_age': 46.0,
 'timestamp': 879024327,
 'user_gender': True,
 'user_id': b'138',
 'user_occupation_label': 4,
 'user_occupation_text': b'doctor',
 'user_rating': 4.0,
 'user_zip_code': b'53211'}
{'movie_genres': array([4]),
 'movie_id': b'1681',
 'movie_title': b'You So Crazy (1994)'}
array([b"'Til There Was You (1997)", b'1-900 (1994)',
       b'101 Dalmatians (1996)', b'12 Angry Men (1957)', b'187 (1997)',
       b'2 Days in the Valley (1996)',
       b'20,000 Leagues Under the Sea (1954)',
       b'2001: A Space Odyssey (1968)',
       b'3 Ninjas: High Noon At Mega Mountain (1998)',
       b'39 Steps, The (1935)'], dtype=object)

Thiết lập hai GPU ảo

Nếu bạn chưa thêm trình tăng tốc GPU vào Colab của mình, vui lòng ngắt kết nối thời gian chạy Colab và thực hiện ngay bây giờ. Chúng tôi cần GPU để chạy mã bên dưới:

gpus = tf.config.list_physical_devices("GPU")
if gpus:
# Create 2 virtual GPUs with 1GB memory each
= tf.config.list_logical_devices("GPU")
print(len(gpus), "Physical GPU,", len(logical_gpus), "Logical GPUs")
except RuntimeError as e:
# Virtual devices must be set before GPUs have been initialized

= tf.distribute.MirroredStrategy()
Thực hiện một mô hình

Chúng tôi thực hiện user_model, movie_model, số liệu và nhiệm vụ trong cùng một cách như chúng ta làm trong hồi cơ bản hướng dẫn, nhưng chúng tôi quấn chúng trong phạm vi chiến lược phân phối:

embedding_dimension = 32

with strategy.scope():
= tf.keras.Sequential([
=unique_user_ids, mask_token=None),
# We add an additional embedding to account for unknown tokens.
.keras.layers.Embedding(len(unique_user_ids) + 1, embedding_dimension)

= tf.keras.Sequential([
=unique_movie_titles, mask_token=None),
.keras.layers.Embedding(len(unique_movie_titles) + 1, embedding_dimension)

= tfrs.metrics.FactorizedTopK(

= tfrs.tasks.Retrieval(
Bây giờ chúng ta có thể tập hợp tất cả lại thành một mô hình. Đây là chính xác giống như trong hồi cơ bản hướng dẫn.

class MovielensModel(tfrs.Model):

def __init__(self, user_model, movie_model):
self.movie_model: tf.keras.Model = movie_model
self.user_model: tf.keras.Model = user_model
self.task: tf.keras.layers.Layer = task

def compute_loss(self, features: Dict[Text, tf.Tensor], training=False) -> tf.Tensor:
# We pick out the user features and pass them into the user model.
= self.user_model(features["user_id"])
# And pick out the movie features and pass them into the movie model,
# getting embeddings back.
= self.movie_model(features["movie_title"])

# The task computes the loss and the metrics.
return self.task(user_embeddings, positive_movie_embeddings)

Phù hợp và đánh giá

Bây giờ chúng tôi khởi tạo và biên dịch mô hình trong phạm vi chiến lược phân phối.

Lưu ý rằng chúng tôi đang sử dụng Adam ưu ở đây thay vì Adagrad như trong hồi cơ bản hướng dẫn từ Adagrad không được hỗ trợ ở đây.

with strategy.scope():
= MovielensModel(user_model, movie_model)

Sau đó trộn, trộn và lưu vào bộ đệm dữ liệu đào tạo và đánh giá.

cached_train = train.shuffle(100_000).batch(8192).cache()
= test.batch(4096).cache()

Sau đó đào tạo mô hình:

model.fit(cached_train, epochs=3)
Epoch 1/3
10/10 [==============================] - 8s 328ms/step - factorized_top_k/top_1_categorical_accuracy: 5.0000e-05 - factorized_top_k/top_5_categorical_accuracy: 8.2500e-04 - factorized_top_k/top_10_categorical_accuracy: 0.0025 - factorized_top_k/top_50_categorical_accuracy: 0.0220 - factorized_top_k/top_100_categorical_accuracy: 0.0537 - loss: 70189.8047 - regularization_loss: 0.0000e+00 - total_loss: 70189.8047
Epoch 2/3
10/10 [==============================] - 3s 329ms/step - factorized_top_k/top_1_categorical_accuracy: 3.3750e-04 - factorized_top_k/top_5_categorical_accuracy: 0.0113 - factorized_top_k/top_10_categorical_accuracy: 0.0251 - factorized_top_k/top_50_categorical_accuracy: 0.1268 - factorized_top_k/top_100_categorical_accuracy: 0.2325 - loss: 66736.4560 - regularization_loss: 0.0000e+00 - total_loss: 66736.4560
Epoch 3/3
10/10 [==============================] - 3s 332ms/step - factorized_top_k/top_1_categorical_accuracy: 0.0012 - factorized_top_k/top_5_categorical_accuracy: 0.0198 - factorized_top_k/top_10_categorical_accuracy: 0.0417 - factorized_top_k/top_50_categorical_accuracy: 0.1834 - factorized_top_k/top_100_categorical_accuracy: 0.3138 - loss: 64871.2997 - regularization_loss: 0.0000e+00 - total_loss: 64871.2997
Bạn có thể thấy từ nhật ký đào tạo rằng TFRS đang sử dụng cả hai GPU ảo.

Cuối cùng, chúng ta có thể đánh giá mô hình của mình trên bộ thử nghiệm:

model.evaluate(cached_test, return_dict=True)
5/5 [==============================] - 4s 193ms/step - factorized_top_k/top_1_categorical_accuracy: 5.0000e-05 - factorized_top_k/top_5_categorical_accuracy: 0.0013 - factorized_top_k/top_10_categorical_accuracy: 0.0043 - factorized_top_k/top_50_categorical_accuracy: 0.0639 - factorized_top_k/top_100_categorical_accuracy: 0.1531 - loss: 32404.8092 - regularization_loss: 0.0000e+00 - total_loss: 32404.8092
{'factorized_top_k/top_1_categorical_accuracy': 4.999999873689376e-05,
 'factorized_top_k/top_5_categorical_accuracy': 0.0013000000035390258,
 'factorized_top_k/top_10_categorical_accuracy': 0.00430000014603138,
 'factorized_top_k/top_50_categorical_accuracy': 0.06385000050067902,
 'factorized_top_k/top_100_categorical_accuracy': 0.1530500054359436,
 'loss': 29363.98046875,
 'regularization_loss': 0,
 'total_loss': 29363.98046875}

Điều này kết thúc việc truy xuất với hướng dẫn chiến lược phân phối.