UnicodeDecodeWithOffsets

genel son sınıf UnicodeDecodeWithOffsets

'Giriş'teki her dizenin kodunu bir Unicode kod noktaları dizisi halinde çözer.

Tüm dizelere ilişkin karakter kod noktaları, dizelerin ana satır sırasına göre karakterlere genişletildiği tek bir "karakter_değerleri" vektörü kullanılarak döndürülür. Benzer şekilde, karakter başlangıç ​​bayt uzaklıkları, dizelerin ana satır sırasına göre genişletildiği tek bir "char_to_byte_starts" vektörü kullanılarak döndürülür.

'row_splits' tensörü, her giriş dizesi için kod noktalarının ve başlangıç ​​uzaklıklarının 'char_values' ve 'char_to_byte_starts' tensörleri içinde nerede başladığını ve bittiğini gösterir. Özellikle, 'i'inci dizenin değerleri (ana satır sırasına göre) '[row_splits[i]:row_splits[i+1]]' diliminde saklanır. Böylece:

  • "char_values[row_splits[i]+j]", "i" dizesindeki (ana satır sırasına göre) "j" karakterinin Unicode kod noktasıdır.
  • 'char_to_bytes_starts[row_splits[i]+j]', 'i'inci dizedeki (ana satır sırasına göre) 'j'inci karakterin başlangıç ​​bayt uzaklığıdır.
  • 'satır_splits[i+1] - satır_splits[i]', 'i'inci dizedeki karakter sayısıdır (ana satır sırasına göre).

İç İçe Sınıflar

sınıf UnicodeDecodeWithOffsets.Options UnicodeDecodeWithOffsets için isteğe bağlı özellikler

Sabitler

Sicim OP_NAME Bu operasyonun TensorFlow çekirdek motoru tarafından bilinen adı

Genel Yöntemler

Çıkış < TInt64 >
charToByteStarts ()
Giriş dizesinde "karakter_değerleri"ndeki her karakterin başladığı bayt dizinini içeren bir 1D int32 Tensörü.
Çıkış < TInt32 >
karakterDeğerleri ()
Kodu çözülmüş kod noktalarını içeren bir 1D int32 Tensörü.
statik UnicodeDecodeWithOffsets < TInt64 >
oluştur ( Kapsam kapsamı, İşlenen < TString > giriş, Dize girişi Kodlama, Seçenekler... seçenekler)
Varsayılan çıktı türlerini kullanarak yeni bir UnicodeDecodeWithOffsets işlemini saran bir sınıf oluşturmaya yönelik fabrika yöntemi.
static <T, TNumber'ı genişletir > UnicodeDecodeWithOffsets <T>
oluştur ( Kapsam kapsamı, İşlenen < TString > giriş, Dize girişi Kodlama, Sınıf<T> Tsplits, Seçenekler... seçenekler)
Yeni bir UnicodeDecodeWithOffsets işlemini saran bir sınıf oluşturmaya yönelik fabrika yöntemi.
statik UnicodeDecodeWithOffsets.Options
hatalar (Dize hataları)
statik UnicodeDecodeWithOffsets.Options
changeControlCharacters (Boolean changeControlCharacters)
statik UnicodeDecodeWithOffsets.Options
replacementChar (Uzun değiştirmeChar)
Çıkış <T>
satırbölmeleri ()
Satır bölmelerini içeren bir 1D int32 tensörü.

Kalıtsal Yöntemler

Sabitler

genel statik son Dize OP_NAME

Bu operasyonun TensorFlow çekirdek motoru tarafından bilinen adı

Sabit Değer: "UnicodeDecodeWithOffsets"

Genel Yöntemler

genel Çıkış < TInt64 > charToByteStarts ()

Giriş dizesinde "karakter_değerleri"ndeki her karakterin başladığı bayt dizinini içeren bir 1D int32 Tensörü.

genel Çıkış < TInt32 > charValues ​​()

Kodu çözülmüş kod noktalarını içeren bir 1D int32 Tensörü.

public static UnicodeDecodeWithOffsets < TInt64 > create ( Kapsam kapsamı, İşlenen < TString > giriş, Dize girişi Kodlama, Seçenekler... seçenekler)

Varsayılan çıktı türlerini kullanarak yeni bir UnicodeDecodeWithOffsets işlemini saran bir sınıf oluşturmaya yönelik fabrika yöntemi.

Parametreler
kapsam mevcut kapsam
giriş Kodu çözülecek metin. Herhangi bir şekle sahip olabilir. Çıktının char değerlerinin bir vektörüne düzleştirildiğine dikkat edin.
giriş kodlaması Giriş dizelerinin metin kodlaması. Bu, ICU ucnv algoritmik dönüştürücüleri tarafından desteklenen kodlamalardan herhangi biridir. Örnekler: "UTF-16", "US ASCII", "UTF-8"`.
seçenekler isteğe bağlı nitelik değerlerini taşır
İadeler
  • UnicodeDecodeWithOffsets'in yeni bir örneği

public static UnicodeDecodeWithOffsets <T> create ( Kapsam kapsamı, Operand < TString > input, String inputEncoding, Class<T> Tsplits, Options... seçenekleri)

Yeni bir UnicodeDecodeWithOffsets işlemini saran bir sınıf oluşturmaya yönelik fabrika yöntemi.

Parametreler
kapsam mevcut kapsam
giriş Kodu çözülecek metin. Herhangi bir şekle sahip olabilir. Çıktının char değerlerinin bir vektörüne düzleştirildiğine dikkat edin.
giriş kodlaması Giriş dizelerinin metin kodlaması. Bu, ICU ucnv algoritmik dönüştürücüleri tarafından desteklenen kodlamalardan herhangi biridir. Örnekler: "UTF-16", "US ASCII", "UTF-8"`.
seçenekler isteğe bağlı nitelik değerlerini taşır
İadeler
  • UnicodeDecodeWithOffsets'in yeni bir örneği

genel statik UnicodeDecodeWithOffsets.Options hataları (Dize hataları)

Parametreler
hatalar Girişte geçersiz biçimlendirme bulunduğunda hata işleme politikası. 'Strict' değeri, işlemin herhangi bir geçersiz giriş biçimlendirmesinde InvalidArgument hatası üretmesine neden olur. 'Değiştir' değeri (varsayılan), işlemin girişteki geçersiz biçimlendirmeyi 'replacement_char' kod noktasıyla değiştirmesine neden olur. 'Yoksay' değeri, işlemin girdideki herhangi bir geçersiz biçimlendirmeyi atlamasına ve buna karşılık gelen bir çıktı karakteri üretmemesine neden olur.

public static UnicodeDecodeWithOffsets.Options replacementControlCharacters (Boolean changeControlCharacters)

Parametreler
ControlCharacters'ı değiştirin C0 kontrol karakterlerinin (00-1F) 'replacement_char' ile değiştirilip değiştirilmeyeceği. Varsayılan yanlıştır.

public static UnicodeDecodeWithOffsets.Options replacementChar (Uzun replacementChar)

Parametreler
yedek karakter `errors='replace'` durumunda girişteki geçersiz biçimlendirmenin yerine kullanılacak yedek karakter kod noktası. Geçerli herhangi bir unicode kod noktası kullanılabilir. Varsayılan değer, varsayılan unicode değiştirme karakterinin 0xFFFD veya U+65533 olmasıdır.)

genel Çıkış <T> rowSplits ()

Satır bölmelerini içeren bir 1D int32 tensörü.