Giriş metnini kaynak kodlamasından hedef kodlamaya dönüştürün.
Giriş herhangi bir şekle sahip bir dize tensörüdür. Çıktı, kodu dönüştürülmüş dizeleri içeren aynı şekle sahip bir dize tensörüdür. Çıkış dizeleri her zaman geçerli unicode'dur. Giriş geçersiz kodlama konumları içeriyorsa "hatalar" özelliği, bunlarla nasıl başa çıkılacağına ilişkin politikayı belirler. Varsayılan hata işleme politikası kullanılırsa, çıktıda geçersiz biçimlendirmenin yerine `replacement_char` kullanılır. Hata politikası "yok sayılacak"sa, girişteki tüm geçersiz kodlama konumları atlanır ve çıkışa dahil edilmez. Eğer "katı" olarak ayarlanırsa geçersiz biçimlendirme InvalidArgument hatasıyla sonuçlanacaktır.
Bu işlem, girişler zaten istenen kodlamada olsalar bile, girişler için doğru formatlamayı uygulamak amacıyla "output_encoding = input_encoding" ile birlikte kullanılabilir.
Girişin önüne kodlamayı belirlemek için gereken bir Bayt Sırası İşareti eklenirse (örneğin, kodlama UTF-16 ise ve BOM big-endian'ı gösteriyorsa), o zaman bu Malzeme Listesi tüketilecek ve çıkışa aktarılmayacaktır. Giriş kodlaması açık bir endianness ile işaretlenmişse (örn. UTF-16-BE), malzeme listesi bölünemez bir boşluk olarak yorumlanır ve çıktıda korunur (her zaman UTF-8 için dahil).
Sonuçta, eğer girdi açık bir endianness olarak işaretlenmişse, kod dönüştürmenin kaynaktaki tüm kod noktalarına sadık kalması sağlanır. Açık bir endianness ile işaretlenmemişse, Malzeme Listesi dizenin kendisinin bir parçası olarak değil, meta veri olarak kabul edilir ve bu nedenle çıktıda korunmaz.
Örnekler:
>>> tf.strings.unicode_transcode(["Merhaba", "TensorFlow", "2.x"], "UTF-8", "UTF-16-BE")
İç İçe Sınıflar
sınıf | UnicodeTranscode.Options | UnicodeTranscode için isteğe bağlı özellikler |
Sabitler
Sicim | OP_NAME | Bu operasyonun TensorFlow çekirdek motoru tarafından bilinen adı |
Genel Yöntemler
Çıkış < TString > | Çıkış olarak () Tensörün sembolik tutamacını döndürür. |
statik UnicodeTranscode | create ( Kapsam kapsamı, İşlenen < TString > giriş, Dize girişiEncoding, String çıkışıEncoding, Seçenekler... seçenekler) Yeni bir UnicodeTranscode işlemini saran bir sınıf oluşturmaya yönelik fabrika yöntemi. |
statik UnicodeTranscode.Options | hatalar (Dize hataları) |
Çıkış < TString > | çıktı () 'output_encoding' kullanılarak kodlanmış unicode metni içeren bir dize tensörü. |
statik UnicodeTranscode.Options | changeControlCharacters (Boolean changeControlCharacters) |
statik UnicodeTranscode.Options | replacementChar (Uzun değiştirmeChar) |
Kalıtsal Yöntemler
Sabitler
genel statik son Dize OP_NAME
Bu operasyonun TensorFlow çekirdek motoru tarafından bilinen adı
Genel Yöntemler
genel Çıkış < TString > asOutput ()
Tensörün sembolik tutamacını döndürür.
TensorFlow işlemlerinin girdileri, başka bir TensorFlow işleminin çıktılarıdır. Bu yöntem, girişin hesaplanmasını temsil eden sembolik bir tanıtıcı elde etmek için kullanılır.
public static UnicodeTranscode create ( Kapsam kapsamı, İşlenen < TString > giriş, Dize girişiEncoding, String çıkışıEncoding, Seçenekler... seçenekler)
Yeni bir UnicodeTranscode işlemini saran bir sınıf oluşturmaya yönelik fabrika yöntemi.
Parametreler
kapsam | mevcut kapsam |
---|---|
giriş | İşlenecek metin. Herhangi bir şekle sahip olabilir. |
giriş kodlaması | Giriş dizelerinin metin kodlaması. Bu, ICU ucnv algoritmik dönüştürücüleri tarafından desteklenen kodlamalardan herhangi biridir. Örnekler: "UTF-16", "US ASCII", "UTF-8"`. |
çıktıKodlama | Çıktıda kullanılacak unicode kodlama. "UTF-8", "UTF-16-BE", "UTF-32-BE"`den biri olmalıdır. Çok baytlı kodlamalar büyük endian olacaktır. |
seçenekler | isteğe bağlı nitelik değerlerini taşır |
İadeler
- UnicodeTranscode'un yeni bir örneği
genel statik UnicodeTranscode.Options hataları (Dize hataları)
Parametreler
hatalar | Girişte geçersiz biçimlendirme bulunduğunda hata işleme politikası. 'Strict' değeri, işlemin herhangi bir geçersiz giriş biçimlendirmesinde InvalidArgument hatası üretmesine neden olur. 'Değiştir' değeri (varsayılan), işlemin girişteki geçersiz biçimlendirmeyi 'replacement_char' kod noktasıyla değiştirmesine neden olur. 'Yoksay' değeri, işlemin girdideki herhangi bir geçersiz biçimlendirmeyi atlamasına ve buna karşılık gelen bir çıktı karakteri üretmemesine neden olur. |
---|
genel Çıkış < TString > çıkış ()
'output_encoding' kullanılarak kodlanmış unicode metni içeren bir dize tensörü.
public static UnicodeTranscode.Options replacementControlCharacters (Boolean changeControlCharacters)
Parametreler
ControlCharacters'ı değiştirin | C0 kontrol karakterlerinin (00-1F) 'replacement_char' ile değiştirilip değiştirilmeyeceği. Varsayılan yanlıştır. |
---|
public static UnicodeTranscode.Options replacementChar (Uzun replacementChar)
Parametreler
yedek karakter | `errors='replace'` durumunda girişteki geçersiz biçimlendirmenin yerine kullanılacak yedek karakter kod noktası. Geçerli herhangi bir unicode kod noktası kullanılabilir. Varsayılan değer, varsayılan unicode değiştirme karakterinin 0xFFFD veya U+65533 olmasıdır.) UTF-8 için, ' ' gibi 1 bayt olarak ifade edilebilen bir değiştirme karakterinin iletilmesinin, geçersiz baytlar 1 baytlık bir değiştirmeyle değiştirileceği için kaynağa yönelik dize hizalamasını koruyacağını unutmayın. UTF-16-BE ve UTF-16-LE için, herhangi bir 1 veya 2 baytlık değiştirme karakteri, baytın kaynağa hizalamasını koruyacaktır. |
---|