UnicodeDecode

공개 최종 클래스 UnicodeDecode

'input'의 각 문자열을 일련의 유니코드 코드 포인트로 디코딩합니다.

모든 문자열의 문자 코드 포인트는 단일 벡터 `char_values`를 사용하여 반환되며, 문자열은 행 우선 순서로 문자로 확장됩니다.

`row_splits` 텐서는 `char_values` 텐서 내에서 각 입력 문자열의 코드 포인트가 시작하고 끝나는 위치를 나타냅니다. 특히 `i`번째 문자열의 값(행 우선 순서)은 `[row_splits[i]:row_splits[i+1]]` 슬라이스에 저장됩니다. 따라서:

  • `char_values[row_splits[i]+j]`는 `i`번째 문자열(행 우선 순서)에서 `j`번째 문자에 대한 유니코드 코드 포인트입니다.
  • `row_splits[i+1] - row_splits[i]`는 `i`번째 문자열(행 우선 순서)의 문자 수입니다.

중첩 클래스

수업 유니코드디코드.옵션 UnicodeDecode 의 선택적 속성

공개 방법

출력 <정수>
char값 ()
디코딩된 코드 포인트를 포함하는 1D int32 Tensor.
static <T 확장 번호> UnicodeDecode <T>
생성 ( 범위 범위, 피연산자 <String> 입력, 문자열 inputEncoding, Class<T> Tsplits, 옵션... 옵션)
새로운 UnicodeDecode 작업을 래핑하는 클래스를 생성하는 팩토리 메서드입니다.
정적 UnicodeDecode <긴>
생성 ( 범위 범위, 피연산자 <String> 입력, 문자열 inputEncoding, 옵션... 옵션)
기본 출력 유형을 사용하여 새로운 UnicodeDecode 작업을 래핑하는 클래스를 생성하는 팩토리 메서드입니다.
정적 UnicodeDecode.옵션
오류 (문자열 오류)
정적 UnicodeDecode.옵션
replacementControlCharacters (부울 교체ControlCharacters)
정적 UnicodeDecode.옵션
replacementChar (긴 replacementChar)
출력 <T>
행분할 ()
행 분할을 포함하는 1D int32 텐서.

상속된 메서드

공개 방법

공개 출력 <Integer> charValues ​​()

디코딩된 코드 포인트를 포함하는 1D int32 Tensor.

공개 정적 UnicodeDecode <T> 생성 ( 범위 범위, 피연산자 <String> 입력, 문자열 inputEncoding, Class<T> Tsplits, 옵션... 옵션)

새로운 UnicodeDecode 작업을 래핑하는 클래스를 생성하는 팩토리 메서드입니다.

매개변수
범위 현재 범위
입력 디코딩할 텍스트입니다. 어떤 모양이든 가질 수 있습니다. 출력은 char 값의 벡터로 평면화됩니다.
입력인코딩 입력 문자열의 텍스트 인코딩입니다. 이는 ICU ucnv 알고리즘 변환기가 지원하는 인코딩 중 하나입니다. 예: `"UTF-16", "US ASCII", "UTF-8"`.
옵션 선택적 속성 값을 전달합니다.
보고
  • UnicodeDecode의 새로운 인스턴스

공개 정적 UnicodeDecode <Long> 생성 ( 범위 범위, 피연산자 <String> 입력, 문자열 inputEncoding, 옵션... 옵션)

기본 출력 유형을 사용하여 새로운 UnicodeDecode 작업을 래핑하는 클래스를 생성하는 팩토리 메서드입니다.

매개변수
범위 현재 범위
입력 디코딩할 텍스트입니다. 어떤 모양이든 가질 수 있습니다. 출력은 char 값의 벡터로 평면화됩니다.
입력인코딩 입력 문자열의 텍스트 인코딩입니다. 이는 ICU ucnv 알고리즘 변환기가 지원하는 인코딩 중 하나입니다. 예: `"UTF-16", "US ASCII", "UTF-8"`.
옵션 선택적 속성 값을 전달합니다.
보고
  • UnicodeDecode의 새로운 인스턴스

공개 정적 UnicodeDecode.Options 오류 (문자열 오류)

매개변수
오류 입력에 잘못된 형식이 있는 경우 오류 처리 정책입니다. 'strict' 값을 사용하면 잘못된 입력 형식에 대해 작업에서 InvalidArgument 오류가 생성됩니다. 'replace' 값(기본값)을 사용하면 입력의 잘못된 형식을 `replacement_char` 코드 포인트로 바꾸는 작업이 수행됩니다. 'ignore' 값을 사용하면 작업이 입력에서 잘못된 형식을 건너뛰고 해당 출력 문자가 생성되지 않습니다.

공개 정적 UnicodeDecode.Options 대체ControlCharacters (부울 대체ControlCharacters)

매개변수
교체컨트롤문자 C0 제어 문자(00-1F)를 `replacement_char`로 바꿀지 여부입니다. 기본값은 거짓입니다.

공개 정적 UnicodeDecode.Options replacementChar (Long replacementChar)

매개변수
교체문자 `errors='replace'`일 때 입력의 유효하지 않은 형식화 대신 사용할 대체 문자 코드포인트입니다. 유효한 유니코드 코드 포인트를 사용할 수 있습니다. 기본값은 기본 유니코드 대체 문자가 0xFFFD 또는 U+65533입니다.)

공개 출력 <T> rowSplits ()

행 분할을 포함하는 1D int32 텐서.