לפני שתוכל לאמן מודל על נתוני טקסט, בדרך כלל תצטרך לעבד (או לעבד מראש) את הטקסט. במקרים רבים, טקסט צריך להיות אסימון ווקטורי לפני שניתן להזין אותו למודל, ובמקרים מסוימים הטקסט דורש שלבי עיבוד מקדים נוספים כגון נורמליזציה ובחירת תכונה.
לאחר עיבוד הטקסט לפורמט מתאים, תוכל להשתמש בו בתהליכי עבודה של עיבוד שפה טבעית (NLP) כגון סיווג טקסט, הפקת טקסט, סיכום ותרגום.
TensorFlow מספקת שתי ספריות לעיבוד טקסט ושפה טבעית: KerasNLP ( GitHub ) ו-TensorFlow Text ( GitHub ).
KerasNLP היא ספריית דוגמנות NLP ברמה גבוהה הכוללת את כל הדגמים העדכניים ביותר מבוססי שנאים וכן כלי עזר לטוקניזציה ברמה נמוכה יותר. זה הפתרון המומלץ עבור רוב מקרי השימוש ב-NLP. נבנה על TensorFlow Text, KerasNLP מופשט פעולות עיבוד טקסט ברמה נמוכה לתוך API שתוכנן לקלות שימוש. אבל אם אתה מעדיף לא לעבוד עם ה-API של Keras, או שאתה צריך גישה לאופציות לעיבוד טקסט ברמה נמוכה יותר, אתה יכול להשתמש ב- TensorFlow Text ישירות.
KerasNLP
הדרך הקלה ביותר להתחיל בעיבוד טקסט ב-TensorFlow היא להשתמש ב-KerasNLP . KerasNLP היא ספריית עיבוד שפה טבעית התומכת בזרימות עבודה הבנויות מרכיבים מודולריים שיש להם משקלים וארכיטקטורות מוגדרות מראש עדכניות. אתה יכול להשתמש ברכיבי KerasNLP עם התצורה שלהם מחוץ לקופסה. אם אתה צריך יותר שליטה, אתה יכול בקלות להתאים אישית רכיבים. KerasNLP מספקת חישוב בתרשים עבור כל זרימות העבודה, כך שתוכל לצפות לייצור קל באמצעות מערכת האקולוגית של TensorFlow.
KerasNLP מכיל יישומים מקצה לקצה של ארכיטקטורות מודל פופולריות כמו BERT ו- FNet . באמצעות מודלים, שכבות ואסימונים של KerasNLP, אתה יכול להשלים הרבה זרימות עבודה מתקדמות של NLP, כולל תרגום מכונה , הפקת טקסט , סיווג טקסט והכשרת מודלים של שנאים .
KerasNLP הוא הרחבה של הליבה של Keras API, וכל מודול KerasNLP ברמה גבוהה הוא Layer
או Model
. אם אתה מכיר את Keras, אתה כבר מבין את רוב KerasNLP.
טקסט TensorFlow
KerasNLP מספקת מודולי עיבוד טקסט ברמה גבוהה הזמינים כשכבות או מודלים. אם אתה צריך גישה לכלים ברמה נמוכה יותר, אתה יכול להשתמש ב-TensorFlow Text . TensorFlow Text מספק פעולות וספריות שיעזרו לך לעבוד עם מחרוזות טקסט ומסמכים גולמיים. TensorFlow Text יכול לבצע את העיבוד המקדים הנדרש באופן קבוע על ידי מודלים מבוססי טקסט, והוא כולל גם תכונות אחרות שימושיות עבור דוגמנות רצף.
באמצעות TensorFlow Text, אתה יכול לעשות את הפעולות הבאות:
- החל אסימונים עשירים בתכונות שיכולים לפצל מחרוזות ברווח לבן, להפריד בין מילים וסימני פיסוק ולהחזיר קיזוז בתים עם אסימונים, כדי שתדע היכן ניתן למצוא מחרוזת בטקסט המקור.
- בדוק אם אסימון תואם לתבנית מחרוזת שצוינה. אתה יכול לבדוק שימוש באותיות רישיות, סימני פיסוק, נתונים מספריים ותכונות אסימונים אחרות.
- שלבו אסימונים ל-n-גרם.
- עבד טקסט בתוך גרף TensorFlow, כך שהטוקניזציה במהלך האימון תואמת את האסימון בהסקה.
איפה להתחיל
המשאבים הבאים יעזרו לך להתחיל עם עיבוד טקסט TensorFlow:
- TensorFlow Text : מדריכים, מדריכים ומשאבים אחרים שיעזרו לך לעבד טקסט באמצעות TensorFlow Text ו-KerasNLP.
- KerasNLP : תיעוד ומשאבים עבור KerasNLP.
- מדריכים של TensorFlow : תיעוד הליבה של TensorFlow (מדריך זה) כולל מספר הדרכות לעיבוד טקסט.
- למידת מכונה של גוגל: מדריך סיווג טקסט : מבוא שלב אחר שלב לסיווג טקסט. זהו מקום טוב להתחיל בו אם אתה חדש בלמידת מכונה.