قبل أن تتمكن من تدريب نموذج على البيانات النصية ، ستحتاج عادةً إلى معالجة (أو معالجة) النص. في كثير من الحالات ، يحتاج النص إلى رمز رمزي ومتجه قبل أن يتم تغذيته إلى نموذج ، وفي بعض الحالات يتطلب النص خطوات معالجة إضافية مثل التسوية واختيار الميزة.
بعد معالجة النص بتنسيق مناسب ، يمكنك استخدامه في سير عمل معالجة اللغة الطبيعية (NLP) مثل تصنيف النص وإنشاء النص والتلخيص والترجمة.
يوفر TensorFlow مكتبتين لمعالجة النص واللغة الطبيعية: KerasNLP ( GitHub ) و TensorFlow Text ( GitHub ).
KerasNLP هي مكتبة نمذجة NLP عالية المستوى تتضمن جميع أحدث النماذج القائمة على المحولات بالإضافة إلى أدوات الترميز ذات المستوى الأدنى. إنه الحل الموصى به لمعظم حالات استخدام البرمجة اللغوية العصبية. استنادًا إلى TensorFlow Text ، يقوم KerasNLP بتلخيص عمليات معالجة النصوص منخفضة المستوى في واجهة برمجة تطبيقات مصممة لسهولة الاستخدام. ولكن إذا كنت تفضل عدم العمل مع Keras API ، أو كنت بحاجة إلى الوصول إلى عمليات معالجة النصوص ذات المستوى الأدنى ، فيمكنك استخدام TensorFlow Text مباشرة.
KerasNLP
أسهل طريقة لبدء معالجة النص في TensorFlow هي استخدام KerasNLP . KerasNLP هي مكتبة لمعالجة اللغة الطبيعية تدعم سير العمل المبني من المكونات المعيارية التي تحتوي على أحدث الأوزان والبنيات المعدة مسبقًا. يمكنك استخدام مكونات KerasNLP مع تكوينها الجاهز. إذا كنت بحاجة إلى مزيد من التحكم ، فيمكنك تخصيص المكونات بسهولة. يوفر KerasNLP حسابًا في الرسم البياني لجميع مهام سير العمل بحيث يمكنك توقع إنتاج سهل باستخدام نظام TensorFlow البيئي.
يحتوي KerasNLP على تطبيقات شاملة لنماذج معمارية شهيرة مثل BERT و FNet . باستخدام نماذج وطبقات ورموز KerasNLP ، يمكنك إكمال العديد من مهام سير عمل البرمجة اللغوية العصبية الحديثة ، بما في ذلك الترجمة الآلية وإنشاء النص وتصنيف النص والتدريب على نموذج المحولات .
KerasNLP هو امتداد لـ Keras API الأساسية ، وكل وحدة KerasNLP عالية المستوى عبارة عن Layer
أو Model
. إذا كنت معتادًا على Keras ، فأنت تفهم بالفعل معظم KerasNLP.
نص TensorFlow
يوفر KerasNLP وحدات معالجة نصية عالية المستوى متوفرة كطبقات أو نماذج. إذا كنت بحاجة إلى الوصول إلى أدوات ذات مستوى أدنى ، فيمكنك استخدام TensorFlow Text . يوفر TensorFlow Text عمليات ومكتبات لمساعدتك في العمل مع سلاسل النص الخام والمستندات. يمكن أن يقوم TensorFlow Text بإجراء المعالجة المسبقة التي تتطلبها النماذج المستندة إلى النصوص بانتظام ، كما يتضمن ميزات أخرى مفيدة لنمذجة التسلسل.
باستخدام TensorFlow Text ، يمكنك القيام بما يلي:
- قم بتطبيق رموز مميزة غنية بالميزات يمكنها تقسيم السلاسل على مسافات بيضاء ، وفصل الكلمات وعلامات الترقيم ، وإرجاع إزاحات البايت مع الرموز المميزة ، حتى تعرف مكان وجود سلسلة في النص المصدر.
- تحقق مما إذا كان الرمز المميز يطابق نمط سلسلة محدد. يمكنك التحقق من استخدام الأحرف الكبيرة وعلامات الترقيم والبيانات الرقمية وميزات الرمز المميز الأخرى.
- ادمج الرموز المميزة في n-grams.
- نص العملية داخل الرسم البياني TensorFlow ، بحيث يتطابق الرمز المميز أثناء التدريب مع الرمز المميز عند الاستدلال.
من أين أبدا
ستساعدك الموارد التالية على البدء في معالجة نص TensorFlow:
- نص TensorFlow : البرامج التعليمية والأدلة والموارد الأخرى لمساعدتك في معالجة النص باستخدام نص TensorFlow و KerasNLP.
- KerasNLP : وثائق وموارد لـ KerasNLP.
- دروس TensorFlow التعليمية : تتضمن وثائق TensorFlow الأساسية (هذا الدليل) العديد من البرامج التعليمية الخاصة بمعالجة النصوص.
- التعلم الآلي من Google: دليل تصنيف النص : مقدمة خطوة بخطوة لتصنيف النص. يعد هذا مكانًا جيدًا للبدء إذا كنت جديدًا في تعلم الآلة.