قبل تدريب نموذج على بيانات نصية، ستحتاج عادةً إلى معالجة النص (أو معالجته مسبقًا). في كثير من الحالات، يجب تقسيم النص إلى رموز ومتجهات قبل إدخاله إلى النموذج، وفي بعض الحالات، يتطلب النص خطوات معالجة مسبقة إضافية، مثل التطبيع واختيار الميزات.
بعد معالجة النص إلى تنسيق مناسب، يمكنك استخدامه في سير عمل معالجة اللغة الطبيعية (NLP) مثل تصنيف النص، وتوليد النص، والتلخيص، والترجمة.
يوفر TensorFlow مكتبتين لمعالجة النصوص واللغة الطبيعية: KerasNLP ( GitHub ) و TensorFlow Text ( GitHub ).
KerasNLP هي مكتبة نمذجة معالجة نصية عالية المستوى، تتضمن أحدث النماذج القائمة على المحولات، بالإضافة إلى أدوات ترميز منخفضة المستوى. إنها الحل الأمثل لمعظم حالات استخدام معالجة النص الطبيعية. مبنية على TensorFlow Text، تُلخص KerasNLP عمليات معالجة النصوص منخفضة المستوى في واجهة برمجة تطبيقات مصممة لسهولة الاستخدام. إذا كنت تفضل عدم استخدام واجهة برمجة تطبيقات Keras، أو كنت بحاجة إلى الوصول إلى عمليات معالجة النصوص منخفضة المستوى، فيمكنك استخدام TensorFlow Text مباشرةً.
KerasNLP
أسهل طريقة لبدء معالجة النصوص في TensorFlow هي استخدام KerasNLP . KerasNLP هي مكتبة لمعالجة اللغات الطبيعية تدعم سير العمل المُصممة من مكونات معيارية ذات أوزان وهياكل مُحددة مسبقًا. يمكنك استخدام مكونات KerasNLP بتكوينها الجاهز. إذا كنت بحاجة إلى مزيد من التحكم، يمكنك تخصيص المكونات بسهولة. توفر KerasNLP حسابات مُدمجة لجميع سير العمل، ما يُتيح لك سهولة الإنتاج باستخدام بيئة TensorFlow.
يحتوي KerasNLP على تطبيقات شاملة لهياكل نماذج شائعة مثل BERT و FNet . باستخدام نماذج KerasNLP وطبقاتها ووحدات التجزئة، يمكنك إكمال العديد من سير عمل معالجة اللغة الطبيعية (NLP) المتطورة، بما في ذلك الترجمة الآلية ، وتوليد النصوص ، وتصنيف النصوص ، وتدريب نماذج المحولات .
KerasNLP هو امتداد لواجهة برمجة تطبيقات Keras الأساسية، وكل وحدة KerasNLP عالية المستوى هي Layer
أو Model
. إذا كنت على دراية بـ Keras، فأنت بالفعل تفهم معظم جوانب KerasNLP.
نص TensorFlow
توفر KerasNLP وحدات معالجة نصوص عالية المستوى، متوفرة كطبقات أو نماذج. إذا كنت بحاجة إلى الوصول إلى أدوات أقل مستوى، يمكنك استخدام TensorFlow Text . يوفر TensorFlow Text عمليات ومكتبات لمساعدتك في التعامل مع سلاسل النصوص الخام والمستندات. كما يُمكنه إجراء المعالجة المسبقة التي تتطلبها النماذج النصية بانتظام، ويتضمن أيضًا ميزات أخرى مفيدة لنمذجة التسلسل.
باستخدام TensorFlow Text، يمكنك القيام بما يلي:
- قم بتطبيق وحدات تقسيم غنية بالميزات يمكنها تقسيم السلاسل على المسافات البيضاء، وفصل الكلمات وعلامات الترقيم، وإرجاع إزاحات البايت باستخدام الوحدات، حتى تتمكن من معرفة مكان العثور على السلسلة في النص المصدر.
- تحقق مما إذا كان الرمز يطابق نمط سلسلة نصية محددًا. يمكنك التحقق من استخدام الأحرف الكبيرة، وعلامات الترقيم، والبيانات الرقمية، وميزات الرمز الأخرى.
- دمج الرموز في n-grams.
- قم بمعالجة النص داخل رسم TensorFlow، بحيث تتطابق التجزئة أثناء التدريب مع التجزئة عند الاستدلال.
من أين نبدأ
ستساعدك الموارد التالية على البدء في معالجة النصوص باستخدام TensorFlow:
- TensorFlow Text : دروس تعليمية وإرشادات وموارد أخرى لمساعدتك في معالجة النص باستخدام TensorFlow Text وKerasNLP.
- KerasNLP : الوثائق والموارد الخاصة بـ KerasNLP.
- دروس TensorFlow : تتضمن وثائق TensorFlow الأساسية (هذا الدليل) العديد من دروس معالجة النصوص.
- دليل تصنيف النصوص من جوجل للتعلم الآلي : مقدمة خطوة بخطوة لتصنيف النصوص. يُعد هذا الدليل نقطة انطلاق جيدة إذا كنت جديدًا في مجال التعلم الآلي.