'इनपुट' में प्रत्येक स्ट्रिंग को यूनिकोड कोड बिंदुओं के अनुक्रम में डिकोड करता है।
सभी स्ट्रिंग्स के लिए वर्ण कोडपॉइंट एकल वेक्टर `char_values` का उपयोग करके लौटाए जाते हैं, जिसमें स्ट्रिंग्स को पंक्ति-प्रमुख क्रम में वर्णों तक विस्तारित किया जाता है। इसी तरह, कैरेक्टर स्टार्ट बाइट ऑफसेट को एकल वेक्टर `char_to_byte_starts` का उपयोग करके लौटाया जाता है, जिसमें स्ट्रिंग को पंक्ति-प्रमुख क्रम में विस्तारित किया जाता है।
`row_splits` टेंसर इंगित करता है कि प्रत्येक इनपुट स्ट्रिंग के लिए कोडपॉइंट और स्टार्ट ऑफसेट `char_values` और `char_to_byte_starts` टेनसर के भीतर कहां शुरू और समाप्त होते हैं। विशेष रूप से, `i`वीं स्ट्रिंग (पंक्ति-प्रमुख क्रम में) के मान स्लाइस `[row_splits[i]:row_splits[i+1]]` में संग्रहीत होते हैं। इस प्रकार:
- `char_values[row_splits[i]+j]` `i`वें स्ट्रिंग (पंक्ति-प्रमुख क्रम में) में `j`वें वर्ण के लिए यूनिकोड कोडपॉइंट है।
- `char_to_bytes_starts[row_splits[i]+j]` `i`वें स्ट्रिंग (पंक्ति-प्रमुख क्रम में) में `j`वें वर्ण के लिए प्रारंभ बाइट ऑफसेट है।
- `row_splits[i+1] - row_splits[i]` `i`वीं स्ट्रिंग (पंक्ति-प्रमुख क्रम में) में वर्णों की संख्या है।
नेस्टेड क्लासेस
कक्षा | UnicodeDecodeWithOffsets.Options | UnicodeDecodeWithOffsets के लिए वैकल्पिक विशेषताएँ |
स्थिरांक
डोरी | OP_NAME | इस ऑप का नाम, जैसा कि TensorFlow कोर इंजन द्वारा जाना जाता है |
सार्वजनिक तरीके
आउटपुट <TInt64> | charToByteStarts () एक 1D int32 टेंसर जिसमें इनपुट स्ट्रिंग में बाइट इंडेक्स होता है जहां `char_values` में प्रत्येक वर्ण शुरू होता है। |
आउटपुट <TInt32> | चार मान () एक 1D int32 टेंसर जिसमें डिकोड किए गए कोडपॉइंट शामिल हैं। |
स्थिर UnicodeDecodeWithOffsets < TInt64 > | |
स्थिर <T टीएनंबर का विस्तार करता है > UnicodeDecodeWithOffsets <T> | |
स्थिर UnicodeDecodeWithOffsets.Options | त्रुटियाँ (स्ट्रिंग त्रुटियाँ) |
स्थिर UnicodeDecodeWithOffsets.Options | रिप्लेसकंट्रोल कैरेक्टर्स (बूलियन रिप्लेसकंट्रोल कैरेक्टर्स) |
स्थिर UnicodeDecodeWithOffsets.Options | रिप्लेसमेंटचार (लंबा रिप्लेसमेंटचार) |
आउटपुट <T> | पंक्तिविभाजन () एक 1D int32 टेंसर जिसमें पंक्ति विभाजित होती है। |
विरासत में मिली विधियाँ
स्थिरांक
सार्वजनिक स्थैतिक अंतिम स्ट्रिंग OP_NAME
इस ऑप का नाम, जैसा कि TensorFlow कोर इंजन द्वारा जाना जाता है
सार्वजनिक तरीके
सार्वजनिक आउटपुट <TInt64> charToByteStarts ()
एक 1D int32 टेंसर जिसमें इनपुट स्ट्रिंग में बाइट इंडेक्स होता है जहां `char_values` में प्रत्येक वर्ण शुरू होता है।
सार्वजनिक स्थैतिक UnicodeDecodeWithOffsets < TInt64 > बनाएं ( स्कोप स्कोप, ऑपरेंड < TString > इनपुट, स्ट्रिंग इनपुट एन्कोडिंग, विकल्प... विकल्प)
डिफ़ॉल्ट आउटपुट प्रकारों का उपयोग करके एक नए UnicodeDecodeWithOffsets ऑपरेशन को लपेटकर एक क्लास बनाने की फ़ैक्टरी विधि।
पैरामीटर
दायरा | वर्तमान दायरा |
---|---|
इनपुट | डिकोड किया जाने वाला पाठ. कोई भी आकार हो सकता है. ध्यान दें कि आउटपुट को चार मानों के वेक्टर में समतल किया गया है। |
इनपुट एन्कोडिंग | इनपुट स्ट्रिंग्स का टेक्स्ट एन्कोडिंग। यह आईसीयू यूसीएनवी एल्गोरिथम कन्वर्टर्स द्वारा समर्थित एन्कोडिंग में से एक है। उदाहरण: `"UTF-16", "US ASCII", "UTF-8"`। |
विकल्प | वैकल्पिक गुण मान रखता है |
रिटर्न
- UnicodeDecodeWithOffsets का एक नया उदाहरण
सार्वजनिक स्थैतिक UnicodeDecodeWithOffsets <T> बनाएं ( स्कोप स्कोप, ऑपरेंड < TString > इनपुट, स्ट्रिंग इनपुट एन्कोडिंग, क्लास <T> Tsplits, विकल्प... विकल्प)
एक नए UnicodeDecodeWithOffsets ऑपरेशन को लपेटकर एक क्लास बनाने की फ़ैक्टरी विधि।
पैरामीटर
दायरा | वर्तमान दायरा |
---|---|
इनपुट | डिकोड किया जाने वाला पाठ. कोई भी आकार हो सकता है. ध्यान दें कि आउटपुट को चार मानों के वेक्टर में समतल किया गया है। |
इनपुट एन्कोडिंग | इनपुट स्ट्रिंग्स का टेक्स्ट एन्कोडिंग। यह आईसीयू यूसीएनवी एल्गोरिथम कन्वर्टर्स द्वारा समर्थित एन्कोडिंग में से एक है। उदाहरण: `"UTF-16", "US ASCII", "UTF-8"`। |
विकल्प | वैकल्पिक गुण मान रखता है |
रिटर्न
- UnicodeDecodeWithOffsets का एक नया उदाहरण
सार्वजनिक स्थैतिक UnicodeDecodeWithOffsets.Options त्रुटियाँ (स्ट्रिंग त्रुटियाँ)
पैरामीटर
त्रुटियाँ | इनपुट में अमान्य फ़ॉर्मेटिंग पाए जाने पर नीति प्रबंधन में त्रुटि। 'सख्त' का मान ऑपरेशन के कारण किसी भी अमान्य इनपुट फ़ॉर्मेटिंग पर InvalidArgument त्रुटि उत्पन्न करेगा। 'रिप्लेस' (डिफ़ॉल्ट) का मान ऑपरेशन को इनपुट में किसी भी अमान्य फ़ॉर्मेटिंग को 'रिप्लेसमेंट_चार' कोडपॉइंट से बदलने का कारण बनेगा। 'अनदेखा' का मान ऑपरेशन के कारण इनपुट में किसी भी अमान्य फ़ॉर्मेटिंग को छोड़ देगा और कोई संबंधित आउटपुट वर्ण उत्पन्न नहीं करेगा। |
---|
सार्वजनिक स्थैतिक UnicodeDecodeWithOffsets.Options रिप्लेसकंट्रोलकैरेक्टर्स (बूलियन रिप्लेसकंट्रोलकैरेक्टर्स)
पैरामीटर
ReplaceControlCharacters | C0 नियंत्रण वर्ण (00-1F) को `replacement_char` से बदलना है या नहीं। डिफ़ॉल्ट ग़लत है. |
---|
सार्वजनिक स्थैतिक UnicodeDecodeWithOffsets.Options प्रतिस्थापनचार (लंबा प्रतिस्थापनचार)
पैरामीटर
प्रतिस्थापनचार | `errors='replace'` होने पर इनपुट में किसी भी अमान्य फ़ॉर्मेटिंग के स्थान पर प्रतिस्थापन वर्ण कोडपॉइंट का उपयोग किया जाना चाहिए। किसी भी वैध यूनिकोड कोडपॉइंट का उपयोग किया जा सकता है। डिफ़ॉल्ट मान डिफ़ॉल्ट यूनिकोड प्रतिस्थापन वर्ण 0xFFFD या U+65533 है।) |
---|