टेंसरफ़्लो :: ऑप्स :: यूनिकोडट्रांसकोड
#include <string_ops.h>
एक गंतव्य एन्कोडिंग के लिए एक स्रोत एन्कोडिंग से इनपुट पाठ ट्रांसकोड।
सारांश
इनपुट किसी भी आकार का एक स्ट्रिंग टेंसर है। आउटपुट ट्रांसकोडेड स्ट्रिंग्स वाले एक ही आकार का स्ट्रिंग टेंसर है। आउटपुट स्ट्रिंग्स हमेशा मान्य यूनिकोड होते हैं। यदि इनपुट में अमान्य एन्कोडिंग स्थितियाँ हैं, तो errors
विशेषता उनके साथ व्यवहार करने के तरीके के लिए नीति निर्धारित करती है। यदि डिफ़ॉल्ट त्रुटि-हैंडलिंग नीति का उपयोग किया जाता है, तो replacement_char
char द्वारा आउटपुट में अमान्य स्वरूपण प्रतिस्थापित किया जाएगा। यदि त्रुटियों की नीति को ignore
, तो इनपुट में किसी भी अवैध एन्कोडिंग स्थिति को छोड़ दिया जाता है और आउटपुट में शामिल नहीं किया जाता है। यदि यह strict
तो किसी भी अमान्य स्वरूपण के परिणामस्वरूप अमान्य अमान्य त्रुटि होगी।
इस ऑपरेशन का उपयोग output_encoding = input_encoding
लिए किया जा सकता है। इनपुट के लिए सही स्वरूपण लागू करने के लिए output_encoding = input_encoding
यदि वे पहले से ही वांछित एन्कोडिंग में हैं।
यदि इनपुट को बाइट ऑर्डर मार्क द्वारा प्रीफिक्स किया गया है तो एन्कोडिंग को निर्धारित करने के लिए आवश्यक है (जैसे यदि एन्कोडिंग UTF-16 है और BOM बड़े-एंडियन को इंगित करता है), तो उस BOM का उपभोग किया जाएगा और आउटपुट में उत्सर्जित नहीं किया जाएगा। यदि इनपुट एन्कोडिंग को एक स्पष्ट एंडियननेस (जैसे UTF-16-BE) के साथ चिह्नित किया जाता है, तो BOM को गैर-ब्रेकिंग-स्पेस के रूप में व्याख्या किया जाता है और आउटपुट में संरक्षित किया जाता है (हमेशा UTF-8 के लिए भी)।
अंतिम परिणाम यह है कि यदि इनपुट को स्पष्ट एंडियननेस के रूप में चिह्नित किया जाता है, तो ट्रांसकोडिंग स्रोत में सभी कोडपॉइंट्स के लिए वफादार है। यदि यह एक स्पष्ट धीरज के साथ चिह्नित नहीं है, तो बीओएम को केवल स्ट्रिंग का हिस्सा नहीं माना जाता है, लेकिन मेटाडेटा के रूप में, और इसलिए आउटपुट में संरक्षित नहीं किया जाता है।
तर्क:
- गुंजाइश: एक स्कोप ऑब्जेक्ट
- इनपुट: पाठ संसाधित किया जाना है। कोई भी आकार हो सकता है।
- input_encoding: इनपुट स्ट्रिंग्स का टेक्स्ट एन्कोडिंग। यह ICU ucnv एल्गोरिदमिक कन्वर्टर्स द्वारा समर्थित एन्कोडिंग में से कोई भी है। उदाहरण:
"UTF-16", "US ASCII", "UTF-8"
। - output_encoding: उत्पादन में उपयोग करने के लिए यूनिकोड एन्कोडिंग।
"UTF-8", "UTF-16-BE", "UTF-32-BE"
एक होना चाहिए। मल्टी-बाइट एनकोडिंग बड़ा-एंडियन होगा।
वैकल्पिक विशेषताएँ ( Attrs
देखें):
- त्रुटियाँ: इनपुट में पाए जाने वाले अमान्य स्वरूपण के समय नीति को संभालने में त्रुटि। 'सख्त' का मान किसी भी अमान्य इनपुट फ़ॉर्मेटिंग पर InvalidArgument त्रुटि उत्पन्न करने के लिए ऑपरेशन का कारण होगा। 'रिप्लेस' (डिफ़ॉल्ट) का एक मूल्य,
replacement_char
कोडपॉइंट के साथ इनपुट में किसी भी अवैध स्वरूपण को बदलने के लिए ऑपरेशन का कारण होगा। 'इग्नोर' के एक मूल्य के कारण ऑपरेशन में किसी भी अवैध फॉर्मेटिंग को छोड़ दिया जाएगा और कोई आउटपुट आउटपुट नहीं दिया जाएगा। - प्रतिस्थापन_चर:
errors='replace'
गलतerrors='replace'
होने पर इनपुट में किसी भी अमान्य स्वरूपण के स्थान पर उपयोग किए जाने वाला प्रतिस्थापन वर्ण कोडपॉइंट। किसी भी मान्य यूनिकोड कोडपॉइंट का उपयोग किया जा सकता है। डिफ़ॉल्ट मान डिफ़ॉल्ट यूनिकोड प्रतिस्थापन वर्ण है 0xFFFD या U + 65533।)
ध्यान दें कि UTF-8 के लिए, 1 बाइट में एक रिप्लेसमेंट कैरेक्टर, जैसे '' ', गुजर रहा है, सोर्स को स्ट्रिंग अलाइनमेंट को संरक्षित करेगा क्योंकि अमान्य बाइट्स को 1-बाइट रिप्लेसमेंट के साथ बदल दिया जाएगा। UTF-16-BE और UTF-16-LE के लिए, कोई भी 1 या 2 बाइट प्रतिस्थापन चरित्र स्रोत के लिए बाइट संरेखण को संरक्षित करेगा।
- रिप्लेस_कंट्रोल_चेचर:
replacement_char
साथ C0 कंट्रोल कैरेक्टर (00-1F) को बदलना है या नहीं। डिफ़ॉल्ट गलत है।
रिटर्न:
-
Output
: एक स्ट्रिंग टेंसर जिसमें यूनिकोड टेक्स्ट होता है, जिसमेंoutput_encoding
का उपयोग करकेoutput_encoding
।
कंस्ट्रक्टर और डिस्ट्रक्टर्स | |
---|---|
UnicodeTranscode (const :: tensorflow::Scope & scope, :: tensorflow::Input input, StringPiece input_encoding, StringPiece output_encoding) | |
UnicodeTranscode (const :: tensorflow::Scope & scope, :: tensorflow::Input input, StringPiece input_encoding, StringPiece output_encoding, const UnicodeTranscode::Attrs & attrs) |
सार्वजनिक विशेषताएँ | |
---|---|
operation | |
output |
सार्वजनिक कार्य | |
---|---|
node () const | ::tensorflow::Node * |
operator::tensorflow::Input () const | |
operator::tensorflow::Output () const |
सार्वजनिक स्थैतिक कार्य | |
---|---|
Errors (StringPiece x) | |
ReplaceControlCharacters (bool x) | |
ReplacementChar (int64 x) |
संरचनाएं | |
---|---|
टेंसरफ़्लो :: ऑप्स :: यूनिकोडट्रांसकोड :: एट्र्स | वैकल्पिक विशेषता यूनिकोडट्रांसकोड के लिए बसती है । |
सार्वजनिक विशेषताएँ
ऑपरेशन
Operation operation
उत्पादन
::tensorflow::Output output
सार्वजनिक कार्य
यूनिकोडट्रांसकोड
UnicodeTranscode( const ::tensorflow::Scope & scope, ::tensorflow::Input input, StringPiece input_encoding, StringPiece output_encoding )
यूनिकोडट्रांसकोड
UnicodeTranscode( const ::tensorflow::Scope & scope, ::tensorflow::Input input, StringPiece input_encoding, StringPiece output_encoding, const UnicodeTranscode::Attrs & attrs )
नोड
::tensorflow::Node * node() const
ऑपरेटर :: टेंसरफ़्लो :: इनपुट
operator::tensorflow::Input() constहै
ऑपरेटर :: टेंसरफ़्लो :: आउटपुट
operator::tensorflow::Output() const
सार्वजनिक स्थैतिक कार्य
त्रुटियाँ
Attrs Errors( StringPiece x )
प्रतिस्थापनकंट्रेक्टर
Attrs ReplaceControlCharacters( bool x )
प्रतिस्थापन
Attrs ReplacementChar( int64 x )