TensorFlow テキスト処理ガイド

TensorFlow テキスト処理ガイドでは、自然言語処理 (NLP) のライブラリとワークフローについて文書化し、テキストを操作するための重要な概念を紹介します。

ケラスNLP

KerasNLP は、最新の Transformer ベースのモデルと下位レベルのトークン化ユーティリティをすべて含む高レベルの自然言語処理 (NLP) ライブラリです。これは、ほとんどの NLP ユースケースに推奨されるソリューションです。

  • KerasNLP の入門: 事前トレーニングされたモデルの使用から独自の Transformer をゼロから構築するまで、段階的な複雑さのレベルで感情分析を実行することで KerasNLP を学習します。

tf.strings

tf.stringsモジュールは、文字列テンソルを操作するための操作を提供します。

  • Unicode 文字列: TensorFlow で Unicode 文字列を表し、標準の文字列演算と同等の Unicode を使用してそれらを操作します。

TensorFlow テキスト

下位レベルのテキスト処理ツールにアクセスする必要がある場合は、TensorFlow Text を使用できます。 TensorFlow Text は、生のテキスト文字列やドキュメントなどのテキスト形式での入力を操作するのに役立つ操作とライブラリのコレクションを提供します。

前処理

  • TF Text を使用した BERT 前処理: TensorFlow Text 前処理操作を使用して、テキスト データを BERT の入力に変換します。
  • TF Text を使用したトークン化: TensorFlow Text によって提供されるトークン化オプションを理解します。あるオプションを別のオプションよりも使用する必要がある場合と、これらのトークナイザーがモデル内からどのように呼び出されるかを学びます。
  • サブワード トークナイザー: データセットからサブワード語彙を生成し、それを使用して語彙からtext.BertTokenizerを構築します。

TensorFlow モデル – NLP

TensorFlow モデル - NLP ライブラリは、Transformer ベースのモデルに組み立てることができる Keras プリミティブと、新しいアーキテクチャでの簡単な実験を可能にする足場クラスを提供します。