このページは Cloud Translation API によって翻訳されました。

UnicodeTranscode

パブリック最終クラスUnicodeTranscode

入力テキストをソースエンコーディングから宛先エンコーディングにトランスコードします。

入力は、任意の形状の文字列テンソルです。出力は、トランスコードされた文字列を含む同じ形状の文字列テンソルです。出力文字列は常に有効な Unicode です。入力に無効なエンコード位置が含まれている場合、「errors」属性はそれらの処理方法のポリシーを設定します。デフォルトのエラー処理ポリシーが使用される場合、出力では無効な書式設定が `replacement_char` によって置き換えられます。エラーポリシーが「無視」の場合、入力内の無効なエンコード位置はスキップされ、出力には含まれません。「strict」に設定すると、無効な書式設定により InvalidArgument エラーが発生します。

この操作を「output_encoding = input_encoding」と組み合わせて使用すると、入力がすでに目的のエンコーディングになっている場合でも、入力の正しいフォーマットを適用できます。

エンコードを決定するために必要なバイトオーダーマークが入力にプレフィックスとして付けられている場合 (たとえば、エンコードが UTF-16 で BOM がビッグエンディアンを示している場合)、その BOM は消費され、出力には出力されません。入力エンコーディングが明示的なエンディアン (UTF-16-BE など) でマークされている場合、BOM は非改行スペースとして解釈され、出力に保存されます (UTF-8 の場合も含む)。

最終結果として、入力が明示的なエンディアンとしてマークされている場合、トランスコーディングはソース内のすべてのコードポイントに忠実になります。明示的なエンディアンでマークされていない場合、BOM は文字列自体の一部ではなくメタデータとみなされ、出力には保存されません。

例:

>>> tf.strings.unicode_transcode(["Hello", "TensorFlow", "2.x"], "UTF-8", "UTF-16-BE") >>> tf.strings.unicode_transcode(["A", "B", "C"], "US ASCII", "UTF-8").numpy() array([b'A', b'B' 、b'C']、dtype=オブジェクト)

ネストされたクラス

クラス UnicodeTranscode.オプション UnicodeTranscodeのオプション属性

定数

弦 OP_NAME TensorFlow コアエンジンによって認識される、この演算の名前

パブリックメソッド

出力< TString >	asOutput () テンソルのシンボリックハンドルを返します。
静的Unicodeトランスコード	create (スコープscope、オペランド <TString>入力、文字列inputEncoding、文字列outputEncoding、オプション...オプション) 新しい UnicodeTranscode 操作をラップするクラスを作成するファクトリメソッド。
静的UnicodeTranscode.Options	エラー(文字列エラー)
出力< TString >	出力() 「output_encoding」を使用してエンコードされた Unicode テキストを含む文字列テンソル。
静的UnicodeTranscode.Options	replaceControlCharacters (ブール値 replaceControlCharacters)
静的UnicodeTranscode.Options	replaceChar (長い replaceChar)

継承されたメソッド

クラスorg.tensorflow.op.RawOpから

最終ブール値	等しい(オブジェクトオブジェクト)
最終整数	ハッシュコード（）
手術	オプ() この計算単位を単一の`Operation`として返します。
最後の文字列	toString ()

クラスjava.lang.Objectから

ブール値	等しい(オブジェクト arg0)
最終クラス<?>	getクラス()
整数	ハッシュコード（）
最後の空白	通知する()
最後の空白	すべて通知()
弦	toString ()
最後の空白	wait (long arg0, int arg1)
最後の空白	待機(長い引数0)
最後の空白	待って（）

インターフェースorg.tensorflow.op.Opから

抽象的な実行環境	環境() このオペレーションが作成された実行環境を返します。
抽象的な操作	オプ() この計算単位を単一の`Operation`として返します。

インターフェースorg.tensorflow.Operandから

抽象出力< TString >	asOutput () テンソルのシンボリックハンドルを返します。
抽象TString	asTensor () このオペランドのテンソルを返します。
抽象的な形	形（）このオペランドの`Output`によって参照されるテンソルの (おそらく部分的に既知の) 形状を返します。
抽象クラス< TString >	タイプ（）このオペランドのテンソル型を返します。

インターフェースorg.tensorflow.ndarray.Shapedから

抽象整数	ランク（）
抽象的な形	形（）
抽象的な長い	サイズ（）このコンテナの合計サイズを値の数で計算して返します。

定数

パブリック静的最終文字列OP_NAME

TensorFlow コアエンジンによって認識される、この演算の名前

定数値: "UnicodeTranscode"

パブリックメソッド

public Output < TString > asOutput ()

テンソルのシンボリックハンドルを返します。

TensorFlow オペレーションへの入力は、別の TensorFlow オペレーションの出力です。このメソッドは、入力の計算を表すシンボリックハンドルを取得するために使用されます。

public static UnicodeTranscode create (スコープscope、オペランド <TString>入力、文字列inputEncoding、文字列outputEncoding、オプション...オプション)

新しい UnicodeTranscode 操作をラップするクラスを作成するファクトリメソッド。

パラメーター

範囲	現在のスコープ
入力	処理されるテキスト。任意の形状にすることができます。
入力エンコーディング	入力文字列のテキストエンコーディング。これは、ICU ucnv アルゴリズムコンバーターでサポートされているエンコーディングのいずれかです。例: 「UTF-16」、「US ASCII」、「UTF-8」。
出力エンコーディング	出力で使用する Unicode エンコード。「UTF-8」、「UTF-16-BE」、「UTF-32-BE」のいずれかである必要があります。マルチバイトエンコーディングはビッグエンディアンになります。
オプション	オプションの属性値を持ちます

戻り値

UnicodeTranscode の新しいインスタンス

public static UnicodeTranscode.Optionsエラー(文字列エラー)

パラメーター

エラー	入力に無効な形式が見つかった場合のエラー処理ポリシー。 'strict' の値を指定すると、無効な入力形式に対して操作で InvalidArgument エラーが生成されます。値「replace」(デフォルト) を指定すると、入力内の無効な書式設定が「replacement_char」コードポイントで置き換えられます。値が「ignore」の場合、操作では入力内の無効な書式設定がスキップされ、対応する出力文字は生成されません。

public Output < TString >出力()

「output_encoding」を使用してエンコードされた Unicode テキストを含む文字列テンソル。

public static UnicodeTranscode.Options replaceControlCharacters (ブール値 replaceControlCharacters)

パラメーター

制御文字を置き換える	C0 制御文字 (00 ～ 1F) を `replacement_char` に置き換えるかどうか。デフォルトは false です。

public static UnicodeTranscode.Options replaceChar (Long replaceChar)

パラメーター

置換文字	`errors='replace'` の場合に、入力内の無効な書式設定の代わりに使用される置換文字コードポイント。任意の有効な Unicode コードポイントを使用できます。デフォルト値は、デフォルトの Unicode 置換文字 0xFFFD または U+65533 です。) UTF-8 の場合、「」などの 1 バイトで表現可能な置換文字を渡すと、無効なバイトが 1 バイトの置換文字に置き換えられるため、ソースとの文字列の位置合わせが維持されることに注意してください。 UTF-16-BE および UTF-16-LE の場合、1 バイトまたは 2 バイトの置換文字はソースへのバイトアラインメントを保持します。

置換文字

`errors='replace'` の場合に、入力内の無効な書式設定の代わりに使用される置換文字コードポイント。任意の有効な Unicode コードポイントを使用できます。デフォルト値は、デフォルトの Unicode 置換文字 0xFFFD または U+65533 です。)

UTF-8 の場合、「」などの 1 バイトで表現可能な置換文字を渡すと、無効なバイトが 1 バイトの置換文字に置き換えられるため、ソースとの文字列の位置合わせが維持されることに注意してください。 UTF-16-BE および UTF-16-LE の場合、1 バイトまたは 2 バイトの置換文字はソースへのバイトアラインメントを保持します。

UnicodeTranscode コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

ネストされたクラス

定数

パブリックメソッド

継承されたメソッド

定数

パブリック静的最終文字列OP_NAME

パブリックメソッド

public Output < TString > asOutput ()

public static UnicodeTranscode create (スコープscope、オペランド<TString>入力、文字列inputEncoding、文字列outputEncoding、オプション...オプション)

パラメーター

戻り値

public static UnicodeTranscode.Optionsエラー(文字列エラー)

パラメーター

public Output < TString >出力()

public static UnicodeTranscode.Options replaceControlCharacters (ブール値 replaceControlCharacters)

パラメーター

public static UnicodeTranscode.Options replaceChar (Long replaceChar)

パラメーター

UnicodeTranscode

public static UnicodeTranscode create (スコープscope、オペランド <TString>入力、文字列inputEncoding、文字列outputEncoding、オプション...オプション)