TensorFlow 텍스트 처리 가이드

TensorFlow 텍스트 처리 가이드는 자연어 처리(NLP)를 위한 라이브러리 및 워크플로를 문서화하고 텍스트 작업에 대한 중요한 개념을 소개합니다.

케라스NLP

KerasNLP는 모든 최신 Transformer 기반 모델과 저수준 토큰화 유틸리티를 포함하는 고수준 자연어 처리(NLP) 라이브러리입니다. 대부분의 NLP 사용 사례에 권장되는 솔루션입니다.

  • KerasNLP 시작하기 : 사전 훈련된 모델 사용부터 처음부터 나만의 Transformer 구축에 이르기까지 점진적인 복잡성 수준에서 감정 분석을 수행하여 KerasNLP를 배우십시오.

tf.strings

tf.strings 모듈은 문자열 Tensor 작업을 위한 작업을 제공합니다.

  • 유니코드 문자열 : TensorFlow에서 유니코드 문자열을 나타내고 표준 문자열 작업과 동등한 유니코드를 사용하여 문자열을 조작합니다.

TensorFlow 텍스트

하위 수준의 텍스트 처리 도구에 액세스해야 하는 경우 TensorFlow Text를 사용할 수 있습니다. TensorFlow Text는 원시 텍스트 문자열이나 문서와 같은 텍스트 형식의 입력으로 작업하는 데 도움이 되는 작업 및 라이브러리 모음을 제공합니다.

전처리

  • TF 텍스트를 사용한 BERT 사전 처리 : TensorFlow 텍스트 사전 처리 작업을 사용하여 텍스트 데이터를 BERT용 입력으로 변환합니다.
  • TF Text로 토큰화 : TensorFlow Text에서 제공하는 토큰화 옵션을 이해합니다. 다른 옵션보다 한 옵션을 사용하려는 경우와 이러한 토크나이저가 모델 내에서 호출되는 방법에 대해 알아보세요.
  • 하위 단어 토크나이저 : 데이터 세트에서 하위 단어 어휘를 생성하고 이를 사용하여 어휘에서 text.BertTokenizer 빌드합니다.

TensorFlow 모델 – NLP

TensorFlow 모델 - NLP 라이브러리는 Transformer 기반 모델로 어셈블할 수 있는 Keras 프리미티브와 새로운 아키텍처로 쉽게 실험할 수 있는 스캐폴드 클래스를 제공합니다.