UnicodeDecode

classe finale publique UnicodeDecode

Décode chaque chaîne dans « input » en une séquence de points de code Unicode.

Les points de code de caractères pour toutes les chaînes sont renvoyés à l'aide d'un seul vecteur « char_values », avec des chaînes développées en caractères dans l'ordre des lignes principales.

Le tenseur `row_splits` indique où commencent et se terminent les points de code de chaque chaîne d'entrée dans le tenseur `char_values`. En particulier, les valeurs de la `i`ème chaîne (dans l’ordre des lignes principales) sont stockées dans la tranche `[row_splits[i]:row_splits[i+1]]`. Ainsi:

  • `char_values[row_splits[i]+j]` est le point de code Unicode pour le `j`ième caractère dans la `i`ième chaîne (dans l'ordre des lignes principales).
  • `row_splits[i+1] - row_splits[i]` est le nombre de caractères dans la `i`ème chaîne (dans l'ordre des lignes principales).

Classes imbriquées

classe UnicodeDecode.Options Attributs facultatifs pour UnicodeDecode

Méthodes publiques

Sortie <Entier>
charValues ​​()
Un Tensor 1D int32 contenant les points de code décodés.
statique <T étend le nombre> UnicodeDecode <T>
créer ( Scope scope, Operand <String> input, String inputEncoding, Class<T> Tsplits, Options... options)
Méthode d'usine pour créer une classe encapsulant une nouvelle opération UnicodeDecode.
UnicodeDecode statique <Long>
créer ( Scope scope, Operand <String> input, String inputEncoding, Options... options)
Méthode d'usine pour créer une classe encapsulant une nouvelle opération UnicodeDecode à l'aide des types de sortie par défaut.
UnicodeDecode.Options statique
erreurs (erreurs de chaîne)
UnicodeDecode.Options statique
replaceControlCharacters (booléen replaceControlCharacters)
UnicodeDecode.Options statique
remplacementChar (Long remplacementChar)
Sortie <T>
lignesSplits ()
Un tenseur 1D int32 contenant les divisions de lignes.

Méthodes héritées

Méthodes publiques

sortie publique <Integer> charValues ​​()

Un Tensor 1D int32 contenant les points de code décodés.

public static UnicodeDecode <T> create ( Scope scope, Operand <String> input, String inputEncoding, Class<T> Tsplits, Options... options)

Méthode d'usine pour créer une classe encapsulant une nouvelle opération UnicodeDecode.

Paramètres
portée portée actuelle
saisir Le texte à décoder. Peut avoir n'importe quelle forme. Notez que la sortie est aplatie en un vecteur de valeurs de caractères.
inputEncoding Encodage du texte des chaînes d'entrée. Il s'agit de l'un des codages pris en charge par les convertisseurs algorithmiques ICU ucnv. Exemples : `"UTF-16", "US ASCII", "UTF-8"`.
choix porte des valeurs d'attributs facultatifs
Retour
  • une nouvelle instance d'UnicodeDecode

public static UnicodeDecode <Long> créer ( Scope scope, Operand <String> input, String inputEncoding, Options... options)

Méthode d'usine pour créer une classe encapsulant une nouvelle opération UnicodeDecode à l'aide des types de sortie par défaut.

Paramètres
portée portée actuelle
saisir Le texte à décoder. Peut avoir n'importe quelle forme. Notez que la sortie est aplatie en un vecteur de valeurs de caractères.
inputEncoding Encodage du texte des chaînes d'entrée. Il s'agit de l'un des codages pris en charge par les convertisseurs algorithmiques ICU ucnv. Exemples : `"UTF-16", "US ASCII", "UTF-8"`.
choix porte des valeurs d'attributs facultatifs
Retour
  • une nouvelle instance d'UnicodeDecode

erreurs publiques statiques UnicodeDecode.Options (erreurs de chaîne)

Paramètres
les erreurs Politique de gestion des erreurs lorsqu’un formatage non valide est trouvé dans l’entrée. La valeur de « strict » entraînera la production d’une erreur InvalidArgument sur tout formatage d’entrée non valide. Une valeur de « replace » (la valeur par défaut) entraînera le remplacement par l'opération de tout formatage non valide dans l'entrée par le point de code « replacement_char ». Une valeur de « ignorer » entraînera l'opération à ignorer tout formatage non valide dans l'entrée et à ne produire aucun caractère de sortie correspondant.

public statique UnicodeDecode.Options replaceControlCharacters (booléen replaceControlCharacters)

Paramètres
replaceControlCharacters S'il faut remplacer les caractères de contrôle C0 (00-1F) par le `replacement_char`. La valeur par défaut est fausse.

public statique UnicodeDecode.Options remplacementChar (Long remplacementChar)

Paramètres
remplacementChar Le point de code du caractère de remplacement à utiliser à la place de tout formatage non valide dans l'entrée lorsque `errors='replace'`. Tout point de code Unicode valide peut être utilisé. La valeur par défaut est que le caractère de remplacement Unicode par défaut est 0xFFFD ou U+65533.)

sortie publique <T> rowSplits ()

Un tenseur 1D int32 contenant les divisions de lignes.