このページは Cloud Translation API によって翻訳されました。

TensorFlow ランキングの概要

TensorFlow ランキングライブラリは、最近の研究で確立されたアプローチと手法を使用して、機械学習モデルをランク付けするためのスケーラブルな学習を構築するのに役立ちます。ランキングモデルは、Web ページなどの類似アイテムのリストを取得し、それらのアイテムの最適化されたリスト (最も関連性の高いページから最も関連性の低いページなど) を生成します。モデルのランク付けを学習すると、検索、質問応答、推奨システム、対話システムに応用できます。このライブラリを使用すると、 Keras APIを使用してアプリケーションのランキングモデルの構築を加速できます。ランキングライブラリには、分散処理戦略を使用して大規模なデータセットを効率的に操作できるようにモデル実装を簡単にスケールアップできるワークフローユーティリティも提供されています。

この概要では、このライブラリを使用してモデルをランク付けする学習の開発について簡単に説明し、ライブラリでサポートされるいくつかの高度なテクニックを紹介し、アプリケーションのランク付けのための分散処理をサポートするために提供されるワークフローユーティリティについて説明します。

モデルをランク付けするための学習の開発

TensorFlow ランキングライブラリを使用してモデルを構築するには、次の一般的な手順に従います。

Keras レイヤーを使用してスコアリング関数を指定する ( tf.keras.layers )
評価に使用するメトリクスを定義します ( tfr.keras.metrics.NDCGMetricなど)。
tfr.keras.losses.SoftmaxLossなどの損失関数を指定します。
tf.keras.Model.compile()でモデルをコンパイルし、データでトレーニングします。

「映画を勧める」チュートリアルでは、このライブラリを使用してランク付け学習モデルを構築する基本を説明します。大規模なランキングモデルの構築の詳細については、「分散ランキングサポート」セクションを確認してください。

高度なランキング手法

TensorFlow ランキングライブラリは、Google の研究者やエンジニアによって研究および実装された高度なランキング手法の適用をサポートします。次のセクションでは、これらのテクニックのいくつかの概要と、アプリケーションでそれらのテクニックの使用を開始する方法について説明します。

BERT リストの入力順序

ランキングライブラリは、 BERTと LTR モデリングを組み合わせてリスト入力の順序を最適化するスコアリングアーキテクチャである TFR-BERT の実装を提供します。このアプローチの応用例として、クエリと、このクエリに応じてランク付けするn 個のドキュメントのリストを考えてみましょう。 <query, document>ペア全体で独立してスコア付けされた BERT 表現を学習する代わりに、LTR モデルはランク付け損失を適用して、グラウンドトゥルースラベルに関してランク付けされたリスト全体の有用性を最大化する BERT 表現を共同で学習します。次の図は、この手法を示しています。

TensorFlow ランキング BERT 図 — **図 1** : TensorFlow ランキング BERT アーキテクチャ図。個々の <query,document> ペアの BERT 表現を使用した n 個のドキュメントのリストに対する結合 LTR モデルを示しています。

このアプローチでは、クエリに応じてランク付けするドキュメントのリストを<query, document>タプルのリストに平坦化します。これらのタプルは、BERT の事前トレーニング済み言語モデルに入力されます。ドキュメントリスト全体のプールされた BERT 出力は、TensorFlow ランキングで利用できる特殊なランキング損失の 1 つを使用して共同で微調整されます。

このアーキテクチャは、事前トレーニングされた言語モデルのパフォーマンスを大幅に向上させ、特に複数の事前トレーニングされた言語モデルを組み合わせた場合に、いくつかの人気のあるランキングタスクで最先端のパフォーマンスを実現します。この手法の詳細については、関連する研究を参照してください。 TensorFlow ランキングのサンプルコードの簡単な実装から始めることができます。

ニューラルランキング一般化加法モデル (GAM)

ローン適格性の評価、広告のターゲティング、治療の指導など、一部のランキングシステムでは、透明性と説明可能性が重要な考慮事項となります。よく理解されている重み付け係数を使用して一般化加算モデル(GAM) を適用すると、ランキングモデルをより説明しやすく、解釈しやすくすることができます。

GAM は回帰タスクと分類タスクに関して広く研究されてきましたが、それらをランキングアプリケーションに適用する方法はあまり明確ではありません。たとえば、GAM を適用してリスト内の個々の項目をモデル化することは簡単ですが、項目の相互作用と、これらの項目がランク付けされるコンテキストの両方をモデル化することは、より困難な問題です。 TensorFlow Rank は、問題のランク付けのために設計された一般化された加算モデルの拡張である、ニューラルランキング GAMの実装を提供します。 GAM の TensorFlow ランキング実装を使用すると、モデルの特徴に特定の重み付けを追加できます。

次のホテルランキングシステムの図では、主なランキング機能として関連性、価格、距離が使用されています。このモデルは、GAM 技術を適用して、ユーザーのデバイスコンテキストに基づいてこれらのディメンションを異なる方法で重み付けします。たとえば、クエリが電話から来た場合、ユーザーが近くのホテルを探していると想定して、距離がより重み付けされます。

ランキングの例のための一般化された加算モデル — **図 2** : ローカル検索にニューラルランキング GAM を適用する。価格や距離などの入力特徴ごとに、サブモデルは検査可能なサブスコアを生成し、透明性を提供します。ユーザーデバイスタイプなどのコンテキスト機能を使用して、サブモデルスコアの重みを決定できます。

ランキングモデルでの GAM の使用の詳細については、関連する調査を参照してください。 TensorFlow ランキングのサンプルコードで、この手法のサンプル実装を開始できます。

分散型ランキングのサポート

TensorFlow Ranking は、データ処理、モデル構築、評価、本番展開を含む大規模なランキングシステムをエンドツーエンドで構築するために設計されています。異種の密な特徴と疎な特徴を処理し、数百万のデータポイントまでスケールアップでき、大規模なランキングアプリケーションの分散トレーニングをサポートするように設計されています。

**図 3** : 分散処理をサポートする TensorFlow ランキングクラスの図。緑色のモジュールは、ランキングモデルに合わせてカスタマイズできます。

このライブラリは、最適化されたランキングパイプラインアーキテクチャを提供し、反復的な定型コードを回避し、ランキングモデルのトレーニングから提供まで適用できる分散ソリューションを作成します。ランキングパイプラインは、 MirroredStrategy 、 TPUStrategy 、 MultiWorkerMirroredStrategy 、およびParameterServerStrategyを含む TensorFlow の分散戦略のほとんどをサポートします。ランキングパイプラインは、トレーニングされたランキングモデルをtf.saved_model形式でエクスポートできます。これは、いくつかの入力署名をサポートします。さらに、ランキングパイプラインは、 TensorBoardデータ視覚化や、長時間実行時の障害からの回復に役立つBackupAndRestoreのサポートなど、便利なコールバックを提供します。訓練業務。

ランキングライブラリは、モデルビルダー、データビルダー、およびハイパーパラメーターを入力として受け取るtfr.keras.pipelineクラスのセットを提供することで、分散トレーニング実装の構築を支援します。 Keras ベースのtfr.keras.ModelBuilderクラスを使用すると、分散処理用のモデルを作成でき、拡張可能な InputCreator、Preprocessor、および Scorer クラスと連携できます。

TensorFlow ランキングパイプラインクラスは、 DatasetBuilderと連携して、ハイパーパラメータを組み込むことができるトレーニングデータをセットアップすることもできます。最後に、パイプライン自体に、一連のハイパーパラメーターをPipelineHparamsオブジェクトとして含めることができます。

「分散ランキングチュートリアル」を使用して、分散ランキングモデルの構築を開始します。

TensorFlow ランキングの概要 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。