На этой странице описаны общие сигнатуры , которые должны быть реализованы с помощью модулей в формате TF1 Hub для выполнения задач , которые принимают текстовые входы. (Для формата TF2 SavedModel см аналогичный SavedModel API .)
Вектор функции текста
Особенность текста вектор модуль создает густое векторное представление из текстовых функций. Он принимает партию строк формы [batch_size]
и отображает их в float32
тензор форма [batch_size, N]
. Это часто называют текст вложения в размерности N
.
Основное использование
embed = hub.Module("path/to/module")
representations = embed([
"A long sentence.",
"single-word",
"http://example.com"])
Использование столбца функций
feature_columns = [
hub.text_embedding_column("comment", "path/to/module", trainable=False),
]
input_fn = tf.estimator.inputs.numpy_input_fn(features, labels, shuffle=True)
estimator = tf.estimator.DNNClassifier(hidden_units, feature_columns)
estimator.train(input_fn, max_steps=100)
Примечания
Модули были предварительно обучены для различных областей и / или задач, поэтому не каждый модуль вектора текстовых функций подойдет для вашей задачи. Например: некоторые модули можно было обучить на одном языке.
Этот интерфейс не позволяет выполнять тонкую настройку текстового представления на TPU, поскольку он требует, чтобы модуль одновременно создавал экземпляры как обработки строк, так и обучаемых переменных.