Google I/O-তে টিউন করার জন্য ধন্যবাদ। চাহিদা অনুযায়ী সব সেশন দেখুন চাহিদা অনুযায়ী দেখুন

সেন্সরফ্লো :: অপস :: ইউনিকোড ট্রান্সকোড

#include <string_ops.h>

কোনও উত্স এনকোডিং থেকে কোনও গন্তব্য এনকোডিংয়ে ইনপুট পাঠ্য ট্রান্সকোড করুন।

সারসংক্ষেপ

ইনপুটটি কোনও আকারের একটি স্ট্রিং টেনসর। আউটপুট হ'ল ট্রান্সকোডযুক্ত স্ট্রিংগুলি সমান আকারের একটি স্ট্রিং টেনসর। আউটপুট স্ট্রিং সর্বদা বৈধ ইউনিকোড। যদি ইনপুটটিতে অবৈধ এনকোডিং অবস্থান থাকে, errors বৈশিষ্ট্যগুলি কীভাবে তাদের মোকাবেলা করতে হবে তার জন্য নীতি সেট করে। যদি ডিফল্ট ত্রুটি-হ্যান্ডলিং নীতি ব্যবহার করা হয় তবে অবৈধ ফর্ম্যাটিং replacement_char দ্বারা আউটপুটে replacement_char । যদি ত্রুটি নীতি ignore করা হয় তবে ignore কোনও অবৈধ এনকোডিং অবস্থানগুলি এড়িয়ে যায় এবং আউটপুটটিতে অন্তর্ভুক্ত থাকে না। যদি এটি strict সেট করা থাকে তবে কোনও অবৈধ বিন্যাসের ফলে একটি অবৈধঅরগমেন্ট ত্রুটি হবে।

এই ক্রিয়াকলাপটি ইতিমধ্যে পছন্দসই এনকোডিংয়ে থাকলেও ইনপুটগুলির জন্য সঠিক ফর্ম্যাটিং প্রয়োগ করতে output_encoding = input_encoding সহ ব্যবহার করা যেতে পারে।

যদি ইনপুটটি এনকোডিং নির্ধারণ করার জন্য কোনও বাইট অর্ডার মার্কের উপসর্গযুক্ত হয় (উদাহরণস্বরূপ যদি এনকোডিংটি ইউটিএফ -16 হয় এবং বিওএম বিগ-এন্ডিয়ান নির্দেশ করে), তবে সেই বিওএম গ্রাস হবে এবং আউটপুটে নির্গত হবে না। যদি ইনপুট এনকোডিংটি সুস্পষ্ট সমাপ্তি (যেমন ইউটিএফ-16-বিই) দিয়ে চিহ্নিত করা হয়, তবে বিওএমকে একটি বিরতিহীন স্থান হিসাবে ব্যাখ্যা করা হয় এবং আউটপুটে সংরক্ষণ করা হয় (সর্বদা ইউটিএফ -8 সহ)।

শেষ ফলাফলটি হ'ল যদি ইনপুটটি সুস্পষ্ট অন্তর্নিহিত হিসাবে চিহ্নিত হয় তবে ট্রান্সকোডিং উত্সের সমস্ত কোডপয়েন্টের প্রতি বিশ্বস্ত। যদি এটি সুস্পষ্ট অন্তর্নিহিততার সাথে চিহ্নিত না করা হয়, তবে বিওএম নিজেই স্ট্রিংয়ের অংশ হিসাবে বিবেচিত হয় না তবে মেটাডেটা হিসাবে, এবং তাই আউটপুটে সংরক্ষণ করা হয় না।

যুক্তি:

  • সুযোগ: একটি স্কোপ অবজেক্ট
  • ইনপুট: পাঠ্য প্রক্রিয়া করা হবে। যে কোনও আকার থাকতে পারে।
  • ইনপুট_নকোডিং: ইনপুট স্ট্রিংয়ের পাঠ্য এনকোডিং। এটি আইসিইউ ইউসিএনভি অ্যালগরিদমিক রূপান্তরকারী দ্বারা সমর্থিত কোনও এনকোডিং। উদাহরণ: "UTF-16", "US ASCII", "UTF-8"
  • আউটপুট_নকোডিং: আউটপুটটিতে ইউনিকোড এনকোডিং use "UTF-8", "UTF-16-BE", "UTF-32-BE" । মাল্টি-বাইট এনকোডিংগুলি বিগ-এন্ডিয়ান হবে।

Attrs বৈশিষ্ট্য ( Attrs ):

  • ত্রুটিগুলি: ইনপুটটিতে অবৈধ বিন্যাস পাওয়া গেলে নীতি পরিচালনা করার সময় ত্রুটি। 'কঠোর' মানটি অপারেশনটিকে কোনও অবৈধ ইনপুট ফর্ম্যাটিংয়ে একটি অকার্যকর ত্রুটি তৈরি করবে। 'রিপ্লেস' (ডিফল্ট) এর মান অপারেশনটিকে replacement_char কোডপয়েন্টের সাহায্যে ইনপুটটিতে কোনও অবৈধ বিন্যাসকে replacement_char । 'অগ্রাহ্য' এর একটি মান অপারেশনকে ইনপুটটিতে কোনও অবৈধ বিন্যাস এড়িয়ে যেতে এবং কোনও সম্পর্কিত আউটপুট অক্ষর তৈরি করতে পারে।
  • প্রতিস্থাপন_চর: errors='replace' যখন ইনপুটটিতে কোনও অবৈধ বিন্যাসের জায়গায় ব্যবহার করার জন্য প্রতিস্থাপন অক্ষর কোডপয়েন্ট। যে কোনও বৈধ ইউনিকোড কোডপয়েন্ট ব্যবহার করা যেতে পারে। ডিফল্ট মান হল ডিফল্ট ইউনিকোড প্রতিস্থাপনের অক্ষর 0xFFFD বা U + 65533)

নোট করুন যে ইউটিএফ -8 এর জন্য, '' এর মতো 1 বাইটে প্রকাশযোগ্য একটি প্রতিস্থাপন চরিত্রটি উত্সের সাথে স্ট্রিং প্রান্তিককরণ সংরক্ষণ করবে কারণ অবৈধ বাইটগুলি 1-বাইট প্রতিস্থাপনের সাথে প্রতিস্থাপন করা হবে। ইউটিএফ-16-বিই এবং ইউটিএফ-16-এলই-এর জন্য যে কোনও 1 বা 2 বাইট প্রতিস্থাপনের অক্ষর উত্সটিতে বাইট প্রান্তিককরণ সংরক্ষণ করবে।

  • রিপ্লেস_কন্ট্রোল_চার্যাক্টর: C0 নিয়ন্ত্রণের অক্ষর (00-1F) replacement_char সাথে replacement_char কিনা। ডিফল্ট মিথ্যা।

রিটার্নস:

  • Output : output_encoding ব্যবহার করে ইউনিকোড output_encoding স্ট্রিং টেনসর।

নির্মাণকারী এবং ধ্বংসকারী

UnicodeTranscode (const :: tensorflow::Scope & scope, :: tensorflow::Input input, StringPiece input_encoding, StringPiece output_encoding)
UnicodeTranscode (const :: tensorflow::Scope & scope, :: tensorflow::Input input, StringPiece input_encoding, StringPiece output_encoding, const UnicodeTranscode::Attrs & attrs)

জনসাধারণের গুণাবলী

operation
output

পাবলিক ফাংশন

node () const
::tensorflow::Node *
operator::tensorflow::Input () const
operator::tensorflow::Output () const

পাবলিক স্ট্যাটিক ফাংশন

Errors (StringPiece x)
ReplaceControlCharacters (bool x)
ReplacementChar (int64 x)

স্ট্রাক্টস

টেনসরফ্লো :: অপ্স :: ইউনিকোড ট্রান্সকোড :: অ্যাটারস

ইউনিকোড ট্রান্সকোডের জন্য ptionচ্ছিক অ্যাট্রিবিউট সেটটার

জনসাধারণের গুণাবলী

অপারেশন

Operation operation

আউটপুট

::tensorflow::Output output

পাবলিক ফাংশন

ইউনিকোড ট্রান্সকোড

 UnicodeTranscode(
  const ::tensorflow::Scope & scope,
  ::tensorflow::Input input,
  StringPiece input_encoding,
  StringPiece output_encoding
)

ইউনিকোড ট্রান্সকোড

 UnicodeTranscode(
  const ::tensorflow::Scope & scope,
  ::tensorflow::Input input,
  StringPiece input_encoding,
  StringPiece output_encoding,
  const UnicodeTranscode::Attrs & attrs
)

নোড

::tensorflow::Node * node() const 

অপারেটর :: টেনসরফ্লো :: ইনপুট

 operator::tensorflow::Input() const 

অপারেটর :: টেনসরফ্লো :: আউটপুট

 operator::tensorflow::Output() const 

পাবলিক স্ট্যাটিক ফাংশন

ত্রুটি

Attrs Errors(
  StringPiece x
)

প্রতিস্থাপনকন্ট্রোলচারকে

Attrs ReplaceControlCharacters(
  bool x
)

রিপ্লেসমেন্টচার

Attrs ReplacementChar(
  int64 x
)