TensorFlow テキスト処理ガイドでは、自然言語処理 (NLP) のライブラリとワークフローについて文書化し、テキストを操作するための重要な概念を紹介します。
ケラスNLP
KerasNLP は、最新の Transformer ベースのモデルと下位レベルのトークン化ユーティリティをすべて含む高レベルの自然言語処理 (NLP) ライブラリです。これは、ほとんどの NLP ユースケースに推奨されるソリューションです。
- KerasNLP の入門: 事前トレーニングされたモデルの使用から独自の Transformer をゼロから構築するまで、段階的な複雑さのレベルで感情分析を実行することで KerasNLP を学習します。
tf.strings
tf.strings
モジュールは、文字列テンソルを操作するための操作を提供します。
- Unicode 文字列: TensorFlow で Unicode 文字列を表し、標準の文字列演算と同等の Unicode を使用してそれらを操作します。
TensorFlow テキスト
下位レベルのテキスト処理ツールにアクセスする必要がある場合は、TensorFlow Text を使用できます。 TensorFlow Text は、生のテキスト文字列やドキュメントなどのテキスト形式での入力を操作するのに役立つ操作とライブラリのコレクションを提供します。
- TensorFlow Text の概要: TensorFlow Text をインストールする方法、またはソースからビルドする方法を学びます。
- TensorFlow Text 演算子を TensorFlow Lite に変換する: TensorFlow Text モデルを TensorFlow Lite に変換して、モバイル、組み込み、IoT デバイスにデプロイします。
前処理
- TF Text を使用した BERT 前処理: TensorFlow Text 前処理操作を使用して、テキスト データを BERT の入力に変換します。
- TF Text を使用したトークン化: TensorFlow Text によって提供されるトークン化オプションを理解します。あるオプションを別のオプションよりも使用する必要がある場合と、これらのトークナイザーがモデル内からどのように呼び出されるかを学びます。
- サブワード トークナイザー: データセットからサブワード語彙を生成し、それを使用して語彙から
text.BertTokenizer
を構築します。
TensorFlow モデル – NLP
TensorFlow モデル - NLP ライブラリは、Transformer ベースのモデルに組み立てることができる Keras プリミティブと、新しいアーキテクチャでの簡単な実験を可能にする足場クラスを提供します。
- TensorFlow モデル NLP ライブラリの紹介: NLP モデリング ライブラリのビルディング ブロックを使用して、事前トレーニング、スパン ラベリング、分類などの一般的な NLPタスク用の Transformer ベースのモデルを構築します。
- Transformer Encoder のカスタマイズ: 新しいネットワーク アーキテクチャを採用するために、双方向の Transformer ベースのエンコーダ ネットワーク スキャフォールドである
tfm.nlp.networks.EncoderScaffold
をカスタマイズします。