TensorFlow-এর জন্য টেক্সট প্রসেসিং টুল
import tensorflow as tf import tensorflow_text as tf_text def preprocess(vocab_table, example_text): # Normalize text tf_text.normalize_utf8(example_text) # Tokenize into words word_tokenizer = tf_text.WhitespaceTokenizer() tokens = word_tokenizer.tokenize(example_text) # Tokenize into subwords subword_tokenizer = tf_text.WordpieceTokenizer( lookup_table, token_out_type=tf.int64) subtokens = subword_tokenizer.tokenize(tokens).merge_dims(1, -1) # Apply padding padded_inputs = tf_text.pad_model_inputs(subtokens, max_seq_length=16) return padded_inputs
টেন্সরফ্লো আপনাকে অপারেটিং সিস্টেম এবং লাইব্রেরির একটি সমৃদ্ধ সংগ্রহ প্রদান করে যা আপনাকে পাঠ্য আকারে ইনপুট যেমন কাঁচা পাঠ্য স্ট্রিং বা নথির সাথে কাজ করতে সহায়তা করে। এই লাইব্রেরিগুলি পাঠ্য-ভিত্তিক মডেলগুলির দ্বারা নিয়মিত প্রয়োজনীয় প্রিপ্রসেসিং সম্পাদন করতে পারে এবং সিকোয়েন্স মডেলিংয়ের জন্য দরকারী অন্যান্য বৈশিষ্ট্যগুলি অন্তর্ভুক্ত করে।
আপনি আপনার নিউরাল নেটে ইনপুট হিসাবে TensorFlow গ্রাফের ভিতর থেকে শক্তিশালী সিনট্যাকটিক এবং শব্দার্থিক পাঠ্য বৈশিষ্ট্যগুলি বের করতে পারেন।
TensorFlow গ্রাফের সাথে প্রিপ্রসেসিংকে একীভূত করা নিম্নলিখিত সুবিধাগুলি প্রদান করে:
- পাঠ্যের সাথে কাজ করার জন্য একটি বড় টুলকিট সুবিধা দেয়
- প্রশিক্ষণ, মূল্যায়ন এবং লঞ্চের মাধ্যমে সমস্যার সংজ্ঞা থেকে প্রকল্পগুলিকে সমর্থন করার জন্য টেনসরফ্লো সরঞ্জামগুলির একটি বড় স্যুটের সাথে একীকরণের অনুমতি দেয়
- পরিবেশন করার সময় জটিলতা হ্রাস করে এবং প্রশিক্ষণ-সার্ভিং স্ক্যু প্রতিরোধ করে
উপরোক্ত ছাড়াও, অনুমানে টোকেনাইজেশন বা প্রি-প্রসেসিং স্ক্রিপ্ট পরিচালনার চেয়ে প্রশিক্ষণে টোকেনাইজেশনের বিষয়ে আপনাকে চিন্তা করার দরকার নেই।
