Libro de cocina de texto

Esta página enumera un conjunto de guías y herramientas conocidas que resuelven problemas en el dominio del texto con TensorFlow Hub. Es un punto de partida para cualquiera que quiera resolver problemas típicos de ML utilizando componentes de ML previamente entrenados en lugar de empezar desde cero.

Clasificación

Cuando queremos predecir una clase para un ejemplo determinado, por ejemplo sentimiento , toxicidad , categoría de artículo o cualquier otra característica.

Gráfico de clasificación de texto

Los tutoriales a continuación resuelven la misma tarea desde diferentes perspectivas y utilizando diferentes herramientas.

Keras

Clasificación de texto con Keras : ejemplo para crear un clasificador de sentimientos de IMDB con Keras y TensorFlow Datasets.

Estimador

Clasificación de texto : ejemplo para crear un clasificador de opiniones de IMDB con Estimator. Contiene múltiples consejos de mejora y una sección de comparación de módulos.

BERT

Predicción del sentimiento de reseña de películas con BERT en TF Hub : muestra cómo utilizar un módulo BERT para la clasificación. Incluye el uso de la biblioteca bert para tokenización y preprocesamiento.

Kaggle

Clasificación IMDB en Kaggle : muestra cómo interactuar fácilmente con una competencia de Kaggle desde un Colab, incluida la descarga de datos y el envío de los resultados.

Estimador Keras TF2 Conjuntos de datos TF BERT API de Kaggle
Clasificación de texto hecho
Clasificación de textos con Keras hechohechohecho
Predecir el sentimiento de crítica de películas con BERT en TF Hub hechohecho
Clasificación IMDB en Kaggle hechohecho

Tarea bengalí con incrustaciones FastText

TensorFlow Hub no ofrece actualmente un módulo en todos los idiomas. El siguiente tutorial muestra cómo aprovechar TensorFlow Hub para una experimentación rápida y un desarrollo de aprendizaje automático modular.

Clasificador de artículos en bengalí : demuestra cómo crear una incrustación de texto reutilizable de TensorFlow Hub y utilizarla para entrenar un clasificador de Keras para el conjunto de datos de artículos en bengalí BARD .

Similitud semántica

Cuando queremos saber qué oraciones se correlacionan entre sí en una configuración de disparo cero (sin ejemplos de entrenamiento).

Gráfico de similitud semántica

Básico

Similitud semántica : muestra cómo utilizar el módulo codificador de oraciones para calcular la similitud de oraciones.

multilingüe

Similitud semántica entre idiomas : muestra cómo utilizar uno de los codificadores de oraciones entre idiomas para calcular la similitud de oraciones entre idiomas.

Recuperación semántica

Recuperación semántica : muestra cómo utilizar el codificador de oraciones de preguntas y respuestas para indexar una colección de documentos para su recuperación en función de la similitud semántica.

Entrada de frase

Similitud semántica con el codificador universal lite : muestra cómo usar módulos de codificador de oraciones que aceptan identificadores de SentencePiece en la entrada en lugar de texto.

Creación de módulos

En lugar de utilizar únicamente módulos en tfhub.dev , existen formas de crear módulos propios. Esta puede ser una herramienta útil para mejorar la modularidad de la base de código de ML y para compartirlo más.

Envolver incrustaciones previamente entrenadas existentes

Exportador de módulos de incrustación de texto : una herramienta para empaquetar una incrustación previamente entrenada existente en un módulo. Muestra cómo incluir operaciones de preprocesamiento de texto en el módulo. Esto permite crear un módulo de incrustación de oraciones a partir de incrustaciones de tokens.

Exportador de módulo de incrustación de texto v2 : igual que el anterior, pero compatible con TensorFlow 2 y ejecución entusiasta.