12월 7일 Women in ML 심포지엄 참석 지금 등록

TensorFlow용 텍스트 처리 도구

import tensorflow as tf
import tensorflow_text as tf_text

def preprocess(vocab_lookup_table, example_text):

  # Normalize text
  tf_text.normalize_utf8(example_text)

  # Tokenize into words
  word_tokenizer = tf_text.WhitespaceTokenizer()
  tokens = word_tokenizer.tokenize(example_text)

  # Tokenize into subwords
  subword_tokenizer = tf_text.WordpieceTokenizer(
       vocab_lookup_table, token_out_type=tf.int64)
  subtokens = subword_tokenizer.tokenize(tokens).merge_dims(1, -1)

  # Apply padding
  padded_inputs = tf_text.pad_model_inputs(subtokens, max_seq_length=16)
  return padded_inputs

TensorFlow는 원시 텍스트 문자열 또는 문서와 같은 텍스트 형식의 입력으로 작업하는 데 도움이 되는 풍부한 작업 및 라이브러리 컬렉션을 제공합니다. 이러한 라이브러리는 텍스트 기반 모델에 필요한 전처리를 정기적으로 수행할 수 있으며 시퀀스 모델링에 유용한 기타 기능을 포함합니다.

TensorFlow 그래프 내부에서 신경망에 대한 입력으로 강력한 구문 및 의미 텍스트 기능을 추출할 수 있습니다.

전처리를 TensorFlow 그래프와 통합하면 다음과 같은 이점이 있습니다.

  • 텍스트 작업을 위한 대형 툴킷을 용이하게 합니다.
  • 대규모 Tensorflow 도구 제품군과 통합하여 문제 정의에서 교육, 평가 및 출시에 이르는 프로젝트를 지원합니다.
  • 서빙 시간의 복잡성을 줄이고 학습-서빙 편향을 방지합니다.

위의 내용 외에 학습 시 토큰화가 추론 시 토큰화와 다르거나 전처리 스크립트를 관리하는 것에 대해 걱정할 필요가 없습니다.

모델 아키텍처
텍스트에서 종단 간 BERT 전처리를 수행하는 방법을 알아봅니다.
텍스트에서 하위 단어 어휘를 생성하는 방법을 배웁니다.
BERT 모델로 텍스트를 분류하는 방법을 알아보세요.
순환 신경망을 사용하여 텍스트를 분류합니다.
Transformer 모델을 사용하여 텍스트를 번역합니다.
sequence-to-sequence 모델로 텍스트를 번역하는 방법을 알아보세요.