'Giriş'teki her dizenin kodunu bir Unicode kod noktaları dizisi halinde çözer.
Tüm dizelere ilişkin karakter kod noktaları, dizelerin ana satır sırasına göre karakterlere genişletildiği tek bir "karakter_değerleri" vektörü kullanılarak döndürülür. Benzer şekilde, karakter başlangıç bayt uzaklıkları, dizelerin ana satır sırasına göre genişletildiği tek bir "char_to_byte_starts" vektörü kullanılarak döndürülür.
'row_splits' tensörü, her giriş dizesi için kod noktalarının ve başlangıç uzaklıklarının 'char_values' ve 'char_to_byte_starts' tensörleri içinde nerede başladığını ve bittiğini gösterir. Özellikle, 'i'inci dizenin değerleri (ana satır sırasına göre) '[row_splits[i]:row_splits[i+1]]' diliminde saklanır. Böylece:
- "char_values[row_splits[i]+j]", "i" dizesindeki (ana satır sırasına göre) "j" karakterinin Unicode kod noktasıdır.
- 'char_to_bytes_starts[row_splits[i]+j]', 'i'inci dizedeki (ana satır sırasına göre) 'j'inci karakterin başlangıç bayt uzaklığıdır.
- 'satır_splits[i+1] - satır_splits[i]', 'i'inci dizedeki karakter sayısıdır (ana satır sırasına göre).
İç İçe Sınıflar
sınıf | UnicodeDecodeWithOffsets.Options | UnicodeDecodeWithOffsets için isteğe bağlı özellikler |
Sabitler
Sicim | OP_NAME | Bu operasyonun TensorFlow çekirdek motoru tarafından bilinen adı |
Genel Yöntemler
Çıkış < TInt64 > | charToByteStarts () Giriş dizesinde "karakter_değerleri"ndeki her karakterin başladığı bayt dizinini içeren bir 1D int32 Tensörü. |
Çıkış < TInt32 > | karakterDeğerleri () Kodu çözülmüş kod noktalarını içeren bir 1D int32 Tensörü. |
statik UnicodeDecodeWithOffsets < TInt64 > | oluştur ( Kapsam kapsamı, İşlenen < TString > giriş, Dize girişi Kodlama, Seçenekler... seçenekler) Varsayılan çıktı türlerini kullanarak yeni bir UnicodeDecodeWithOffsets işlemini saran bir sınıf oluşturmaya yönelik fabrika yöntemi. |
static <T, TNumber'ı genişletir > UnicodeDecodeWithOffsets <T> | oluştur ( Kapsam kapsamı, İşlenen < TString > giriş, Dize girişi Kodlama, Sınıf<T> Tsplits, Seçenekler... seçenekler) Yeni bir UnicodeDecodeWithOffsets işlemini saran bir sınıf oluşturmaya yönelik fabrika yöntemi. |
statik UnicodeDecodeWithOffsets.Options | hatalar (Dize hataları) |
statik UnicodeDecodeWithOffsets.Options | changeControlCharacters (Boolean changeControlCharacters) |
statik UnicodeDecodeWithOffsets.Options | replacementChar (Uzun değiştirmeChar) |
Çıkış <T> | satırbölmeleri () Satır bölmelerini içeren bir 1D int32 tensörü. |
Kalıtsal Yöntemler
Sabitler
genel statik son Dize OP_NAME
Bu operasyonun TensorFlow çekirdek motoru tarafından bilinen adı
Genel Yöntemler
genel Çıkış < TInt64 > charToByteStarts ()
Giriş dizesinde "karakter_değerleri"ndeki her karakterin başladığı bayt dizinini içeren bir 1D int32 Tensörü.
public static UnicodeDecodeWithOffsets < TInt64 > create ( Kapsam kapsamı, İşlenen < TString > giriş, Dize girişi Kodlama, Seçenekler... seçenekler)
Varsayılan çıktı türlerini kullanarak yeni bir UnicodeDecodeWithOffsets işlemini saran bir sınıf oluşturmaya yönelik fabrika yöntemi.
Parametreler
kapsam | mevcut kapsam |
---|---|
giriş | Kodu çözülecek metin. Herhangi bir şekle sahip olabilir. Çıktının char değerlerinin bir vektörüne düzleştirildiğine dikkat edin. |
giriş kodlaması | Giriş dizelerinin metin kodlaması. Bu, ICU ucnv algoritmik dönüştürücüleri tarafından desteklenen kodlamalardan herhangi biridir. Örnekler: "UTF-16", "US ASCII", "UTF-8"`. |
seçenekler | isteğe bağlı nitelik değerlerini taşır |
İadeler
- UnicodeDecodeWithOffsets'in yeni bir örneği
public static UnicodeDecodeWithOffsets <T> create ( Kapsam kapsamı, Operand < TString > input, String inputEncoding, Class<T> Tsplits, Options... seçenekleri)
Yeni bir UnicodeDecodeWithOffsets işlemini saran bir sınıf oluşturmaya yönelik fabrika yöntemi.
Parametreler
kapsam | mevcut kapsam |
---|---|
giriş | Kodu çözülecek metin. Herhangi bir şekle sahip olabilir. Çıktının char değerlerinin bir vektörüne düzleştirildiğine dikkat edin. |
giriş kodlaması | Giriş dizelerinin metin kodlaması. Bu, ICU ucnv algoritmik dönüştürücüleri tarafından desteklenen kodlamalardan herhangi biridir. Örnekler: "UTF-16", "US ASCII", "UTF-8"`. |
seçenekler | isteğe bağlı nitelik değerlerini taşır |
İadeler
- UnicodeDecodeWithOffsets'in yeni bir örneği
genel statik UnicodeDecodeWithOffsets.Options hataları (Dize hataları)
Parametreler
hatalar | Girişte geçersiz biçimlendirme bulunduğunda hata işleme politikası. 'Strict' değeri, işlemin herhangi bir geçersiz giriş biçimlendirmesinde InvalidArgument hatası üretmesine neden olur. 'Değiştir' değeri (varsayılan), işlemin girişteki geçersiz biçimlendirmeyi 'replacement_char' kod noktasıyla değiştirmesine neden olur. 'Yoksay' değeri, işlemin girdideki herhangi bir geçersiz biçimlendirmeyi atlamasına ve buna karşılık gelen bir çıktı karakteri üretmemesine neden olur. |
---|
public static UnicodeDecodeWithOffsets.Options replacementControlCharacters (Boolean changeControlCharacters)
Parametreler
ControlCharacters'ı değiştirin | C0 kontrol karakterlerinin (00-1F) 'replacement_char' ile değiştirilip değiştirilmeyeceği. Varsayılan yanlıştır. |
---|
public static UnicodeDecodeWithOffsets.Options replacementChar (Uzun replacementChar)
Parametreler
yedek karakter | `errors='replace'` durumunda girişteki geçersiz biçimlendirmenin yerine kullanılacak yedek karakter kod noktası. Geçerli herhangi bir unicode kod noktası kullanılabilir. Varsayılan değer, varsayılan unicode değiştirme karakterinin 0xFFFD veya U+65533 olmasıdır.) |
---|