O guia de processamento de texto do TensorFlow documenta bibliotecas e fluxos de trabalho para processamento de linguagem natural (NLP) e apresenta conceitos importantes para trabalhar com texto.
KerasNLP
KerasNLP é uma biblioteca de processamento de linguagem natural (NLP) de alto nível que inclui todos os modelos baseados em Transformer mais recentes, bem como utilitários de tokenização de nível inferior. É a solução recomendada para a maioria dos casos de uso de PNL.
- Introdução ao KerasNLP : aprenda o KerasNLP realizando análises de sentimento em níveis progressivos de complexidade, desde o uso de um modelo pré-treinado até a construção do seu próprio Transformer do zero.
tf.strings
O módulo tf.strings
fornece operações para trabalhar com tensores de string.
- Strings Unicode : represente strings Unicode no TensorFlow e manipule-as usando equivalentes Unicode de operações de string padrão.
Texto do TensorFlow
Se precisar de acesso a ferramentas de processamento de texto de nível inferior, você pode usar o TensorFlow Text. O TensorFlow Text fornece uma coleção de operações e bibliotecas para ajudá-lo a trabalhar com entradas em formato de texto, como strings de texto bruto ou documentos.
- Introdução ao TensorFlow Text : saiba como instalar o TensorFlow Text ou criá-lo a partir do código-fonte.
- Convertendo operadores de texto do TensorFlow em TensorFlow Lite : converta um modelo de texto do TensorFlow em TensorFlow Lite para implantação em dispositivos móveis, incorporados e IoT.
Pré-processando
- Pré-processamento de BERT com texto TF : use as operações de pré-processamento de texto do TensorFlow para transformar dados de texto em entradas para BERT.
- Tokenização com texto TF : entenda as opções de tokenização fornecidas pelo TensorFlow Text. Saiba quando você pode querer usar uma opção em detrimento de outra e como esses tokenizadores são chamados de dentro do seu modelo.
- Tokenizadores de subpalavra : gere um vocabulário de subpalavra a partir de um conjunto de dados e use-o para construir um
text.BertTokenizer
a partir do vocabulário.
Modelos do TensorFlow – NLP
A biblioteca TensorFlow Models - NLP fornece primitivos Keras que podem ser montados em modelos baseados em Transformer e classes scaffold que permitem fácil experimentação com novas arquiteturas.
- Introdução à biblioteca NLP de modelos do TensorFlow : crie modelos baseados no Transformer para tarefas comuns de NLP, incluindo pré-treinamento, rotulagem de extensão e classificação usando blocos de construção da biblioteca de modelagem NLP .
- Personalizando um Codificador Transformer : Personalize
tfm.nlp.networks.EncoderScaffold
, um andaime de rede de codificador bidirecional baseado em Transformer, para empregar novas arquiteturas de rede.