TensorFlow के साथ पाठ और प्राकृतिक भाषा प्रसंस्करण

टेक्स्ट डेटा पर किसी मॉडल को प्रशिक्षित करने से पहले, आपको आमतौर पर टेक्स्ट को प्रोसेस (या प्रीप्रोसेस) करना होगा। कई मामलों में, मॉडल में डालने से पहले टेक्स्ट को टोकनाइज़ और वेक्टराइज़ करना पड़ता है, और कुछ मामलों में टेक्स्ट के लिए नॉर्मलाइज़ेशन और फ़ीचर सेलेक्शन जैसे अतिरिक्त प्रीप्रोसेसिंग चरणों की आवश्यकता होती है।

पाठ को उपयुक्त प्रारूप में संसाधित करने के बाद, आप इसका उपयोग प्राकृतिक भाषा प्रसंस्करण (एनएलपी) कार्यप्रवाह जैसे पाठ वर्गीकरण, पाठ निर्माण, सारांशीकरण और अनुवाद में कर सकते हैं।

TensorFlow पाठ और प्राकृतिक भाषा प्रसंस्करण के लिए दो लाइब्रेरी प्रदान करता है: KerasNLP ( GitHub ) और TensorFlow Text ( GitHub )।

KerasNLP एक उच्च-स्तरीय NLP मॉडलिंग लाइब्रेरी है जिसमें सभी नवीनतम ट्रांसफ़ॉर्मर-आधारित मॉडल और निम्न-स्तरीय टोकनाइज़ेशन उपयोगिताएँ शामिल हैं। यह अधिकांश NLP उपयोग मामलों के लिए अनुशंसित समाधान है। TensorFlow Text पर निर्मित, KerasNLP निम्न-स्तरीय टेक्स्ट प्रोसेसिंग ऑपरेशनों को एक API में सारित करता है जिसे उपयोग में आसानी के लिए डिज़ाइन किया गया है। लेकिन अगर आप Keras API के साथ काम नहीं करना चाहते हैं, या आपको निम्न-स्तरीय टेक्स्ट प्रोसेसिंग ऑपरेशन तक पहुँच की आवश्यकता है, तो आप सीधे TensorFlow Text का उपयोग कर सकते हैं।

केरासएनएलपी

TensorFlow में टेक्स्ट प्रोसेसिंग शुरू करने का सबसे आसान तरीका KerasNLP का उपयोग करना है। KerasNLP एक प्राकृतिक भाषा प्रोसेसिंग लाइब्रेरी है जो अत्याधुनिक प्रीसेट वेट और आर्किटेक्चर वाले मॉड्यूलर कंपोनेंट्स से बने वर्कफ़्लोज़ को सपोर्ट करती है। आप KerasNLP कंपोनेंट्स को उनके आउट-ऑफ-द-बॉक्स कॉन्फ़िगरेशन के साथ इस्तेमाल कर सकते हैं। अगर आपको ज़्यादा नियंत्रण की ज़रूरत है, तो आप कंपोनेंट्स को आसानी से कस्टमाइज़ कर सकते हैं। KerasNLP सभी वर्कफ़्लोज़ के लिए इन-ग्राफ़ कंप्यूटेशन प्रदान करता है, इसलिए आप TensorFlow इकोसिस्टम का इस्तेमाल करके आसानी से प्रोडक्शनाइज़ेशन की उम्मीद कर सकते हैं।

KerasNLP में BERT और FNet जैसे लोकप्रिय मॉडल आर्किटेक्चर के एंड-टू-एंड कार्यान्वयन शामिल हैं। KerasNLP मॉडल, लेयर्स और टोकनाइज़र का उपयोग करके, आप मशीन ट्रांसलेशन , टेक्स्ट जनरेशन , टेक्स्ट क्लासिफिकेशन और ट्रांसफ़ॉर्मर मॉडल ट्रेनिंग सहित कई अत्याधुनिक NLP वर्कफ़्लोज़ पूरे कर सकते हैं।

KerasNLP कोर Keras API का एक विस्तार है, और प्रत्येक उच्च-स्तरीय KerasNLP मॉड्यूल एक Layer या Model है। यदि आप Keras से परिचित हैं, तो आप पहले से ही KerasNLP के अधिकांश भाग को समझते हैं।

TensorFlow पाठ

KerasNLP उच्च-स्तरीय टेक्स्ट प्रोसेसिंग मॉड्यूल प्रदान करता है जो लेयर्स या मॉडल के रूप में उपलब्ध हैं। यदि आपको निम्न-स्तरीय टूल तक पहुँच की आवश्यकता है, तो आप TensorFlow Text का उपयोग कर सकते हैं। TensorFlow Text आपको अपरिष्कृत टेक्स्ट स्ट्रिंग्स और दस्तावेज़ों के साथ काम करने में मदद करने के लिए ऑपरेशन और लाइब्रेरी प्रदान करता है। TensorFlow Text टेक्स्ट-आधारित मॉडल द्वारा आवश्यक नियमित प्रीप्रोसेसिंग कर सकता है, और इसमें अनुक्रम मॉडलिंग के लिए उपयोगी अन्य सुविधाएँ भी शामिल हैं।

TensorFlow Text का उपयोग करके, आप निम्नलिखित कार्य कर सकते हैं:

  • सुविधा संपन्न टोकनाइजर्स लागू करें जो रिक्त स्थान पर स्ट्रिंग को विभाजित कर सकते हैं, शब्दों और विराम चिह्नों को अलग कर सकते हैं, और टोकन के साथ बाइट ऑफसेट लौटा सकते हैं, ताकि आपको पता चल सके कि स्रोत पाठ में स्ट्रिंग कहां मिल सकती है।
  • जाँचें कि कोई टोकन किसी निर्दिष्ट स्ट्रिंग पैटर्न से मेल खाता है या नहीं। आप कैपिटलाइज़ेशन, विराम चिह्न, संख्यात्मक डेटा और अन्य टोकन विशेषताओं की जाँच कर सकते हैं।
  • टोकनों को एन-ग्राम में संयोजित करें।
  • TensorFlow ग्राफ के भीतर पाठ को संसाधित करें, ताकि प्रशिक्षण के दौरान टोकनाइजेशन अनुमान के समय टोकनाइजेशन से मेल खाए।

कहां से शुरू करें

निम्नलिखित संसाधन आपको TensorFlow टेक्स्ट प्रोसेसिंग शुरू करने में मदद करेंगे: