ויסות גרפים לסיווג מסמכים באמצעות גרפים טבעיים

סקירה כללית

הסדרת הגרף היא טכניקה ספציפית תחת הפרדיגמה הרחבה של עצבי גרף למידה ( בוי et al., 2018 ). הרעיון המרכזי הוא להכשיר מודלים של רשתות עצביות עם מטרה מסודרת בגרף, תוך שימוש בנתונים מסומנים וגם ללא תווית.

במדריך זה, נחקור את השימוש בהסדרת גרפים כדי לסווג מסמכים היוצרים גרף טבעי (אורגני).

המתכון הכללי ליצירת מודל מוסדר גרף באמצעות המסגרת של למידה מובנית עצבית (NSL) הוא כדלקמן:

  1. צור נתוני אימון מגרף הקלט ותכונות לדוגמה. צמתים בגרף מתאימים לדגימות והקצוות בגרף מתאימים לדמיון בין זוגות דגימות. נתוני האימון שיתקבלו יכילו תכונות שכנות בנוסף לתכונות הצומת המקוריות.
  2. צור רשת עצבית כמודל בסיס באמצעות Keras הרציף, הפונקציונלי, או API תת.
  3. עוטף את דגם הבסיס עם GraphRegularization מעמד המעטפת, אשר מסופק על ידי מסגרת NSL, כדי ליצור גרף חדש Keras מודל. מודל חדש זה יכלול אובדן הסדרת גרף כמונח ההסדרה ביעד ההכשרה שלו.
  4. רכבת ולהעריך את הגרף Keras מודל.


התקן את חבילת הלמידה המובנית העצבית.

pip install --quiet neural-structured-learning

תלות ויבוא

import neural_structured_learning as nsl

import tensorflow as tf

מערך נתונים של Cora

במערך קורה הוא גרף הציטוט שבו הצמתים מייצגים ניירות למידת מכונה וקצוות מייצגים ציטוטים בין זוגות של ניירות. המשימה הכרוכה היא סיווג מסמכים כאשר המטרה היא לסווג כל מאמר לאחת מ-7 קטגוריות. במילים אחרות, מדובר בבעיית סיווג רב מחלקות עם 7 מחלקות.


הגרף המקורי מכוון. עם זאת, לצורך דוגמה זו, אנו רואים את הגרסה הבלתי מכוונת של גרף זה. לכן, אם מאמר א' מצטט את מאמר ב', אנו מחשיבים את המאמר ב' כמצוטט את א'. למרות שזה לא בהכרח נכון, בדוגמה זו, אנו רואים ציטוטים בתור פרוקסי לדמיון, שהוא בדרך כלל תכונה קומוטטיבית.


כל נייר בקלט מכיל למעשה 2 תכונות:

  1. מילים: צפוף, רב-חם שקית-של-מילים ייצוג של הטקסט בעיתון. אוצר המילים עבור מערך הנתונים של Cora מכיל 1433 מילים ייחודיות. אז, אורכה של תכונה זו הוא 1433, והערך במיקום 'i' הוא 0/1 המציין אם המילה 'i' באוצר המילים קיימת במאמר הנתון או לא.

  2. לייבל: שלם בודד המייצג את הזהות בכיתה (קטגוריה) של נייר.

הורד את מערך הנתונים של Cora

wget --quiet -P /tmp https://linqs-data.soe.ucsc.edu/public/lbc/cora.tgz
tar -C /tmp -xvzf /tmp/cora.tgz

המר את נתוני Cora לפורמט NSL

כדי preprocess במערך קורה ולהמיר אותו לפורמט הנדרש על ידי למידה Structured עצבית, נוכל להריץ את הסקריפט "preprocess_cora_dataset.py", אשר נכלל במאגר NSL GitHub. הסקריפט הזה עושה את הפעולות הבאות:

  1. צור תכונות שכנות באמצעות תכונות הצומת המקוריות והגרף.
  2. צור פיצולי נתוני הרכבת מבחן המכילים tf.train.Example מקרים.
  3. נמשך הרכבת שהתקבלה נתון בדיקה של TFRecord הפורמט.
!wget https://raw.githubusercontent.com/tensorflow/neural-structured-learning/master/neural_structured_learning/examples/preprocess/cora/preprocess_cora_dataset.py

!python preprocess_cora_dataset.py \
--input_cora_content=/tmp/cora/cora.content \
--input_cora_graph=/tmp/cora/cora.cites \
--max_nbrs=5 \
--output_train_data=/tmp/cora/train_merged_examples.tfr \
משתנים גלובליים

שבילי קובץ נתון הרכבת ולבדוק מבוסס על ערכי סימון שורת פקוד המשמשים להפעיל את התסריט "preprocess_cora_dataset.py" לעיל.

### Experiment dataset
= '/tmp/cora/train_merged_examples.tfr'
= '/tmp/cora/test_examples.tfr'

### Constants used to identify neighbor features in the input.
= 'NL_nbr_'
= '_weight'


נשתמש מופע של HParams לכלול hyperparameters וקבועים שונים שימשו לאימונים והערכה. אנו מתארים בקצרה כל אחד מהם להלן:

  • num_classes: ישנם סוגים שונים 7 סה"כ

  • max_seq_length: זהו הגודל של אוצר המילים ואת כל המופעים בקלט יש ייצוג רב-חם, שקית-של-מילים צפופה. במילים אחרות, ערך 1 למילה מציין שהמילה קיימת בקלט וערך 0 מציין שלא.

  • DISTANCE_TYPE: זהו המרחק מטרי המשמש להסדרת המדגם עם שכנותיה.

  • graph_regularization_multiplier: זו קובעת את המשקל היחסי של המונח להסדרת גרף פונקצית ההפסד הכולל.

  • num_neighbors: מספר שכנים משמשים להסדרת גרף. יש ערך זה להיות קטן או שווה ל max_nbrs שורת הפקודה טיעון בשימוש מעל בעת הפעלת preprocess_cora_dataset.py .

  • num_fc_units: מספר השכבות מחוברות באופן מלא ברשת העצבית שלנו.

  • train_epochs: מספר תקופות האימונים.

  • גודל יצווה שמש לאימונים והערכה: batch_size.

  • dropout_rate: בקרת שיעור הנשירה בעקבות כל שכבה מחוברת באופן מלא

  • eval_steps: מספר אצוות כדי תהליך לפני רואה סיום בדיקה. אם מוגדר None , כל המופעים בערכת בדיקה מוערכים.

class HParams(object):
"""Hyperparameters used for training."""
def __init__(self):
### dataset parameters
self.num_classes = 7
self.max_seq_length = 1433
### neural graph learning parameters
self.distance_type = nsl.configs.DistanceType.L2
self.graph_regularization_multiplier = 0.1
self.num_neighbors = 1
### model architecture
self.num_fc_units = [50, 50]
### training parameters
self.train_epochs = 100
self.batch_size = 128
self.dropout_rate = 0.5
### eval parameters
self.eval_steps = None  # All instances in the test set are evaluated.

= HParams()

טען נתוני רכבת ובדיקה

כפי שתואר קודם לכן במחברת זו, נתון הכשרת מבחן קלט נוצרו על ידי "preprocess_cora_dataset.py". אנו נטען אותם לשתי tf.data.Dataset אובייקטים - אחד עבור רכבת ואחד לבדיקה.

בשכבת הקלט של המודל שלנו, נוכל לחלץ ולא רק את "מילות" ואת "התווית" תכונות מכל מדגם, אלא גם שכן מקביל תכונות המבוסס על hparams.num_neighbors הערך. מקרים עם שכנים פחות מ hparams.num_neighbors יוקצו דמה ערכים עבור אפס שכן תכונות אלה.

def make_dataset(file_path, training=False):
"""Creates a `tf.data.TFRecordDataset`.

    file_path: Name of the file in the `.tfrecord` format containing
      `tf.train.Example` objects.
    training: Boolean indicating if we are in training mode.

    An instance of `tf.data.TFRecordDataset` containing the `tf.train.Example`

def parse_example(example_proto):
"""Extracts relevant fields from the `example_proto`.

      example_proto: An instance of `tf.train.Example`.

      A pair whose first value is a dictionary containing relevant features
      and whose second value contains the ground truth label.

# The 'words' feature is a multi-hot, bag-of-words representation of the
# original raw text. A default value is required for examples that don't
# have the feature.
= {
.io.FixedLenFeature((), tf.int64, default_value=-1),
# We also extract corresponding neighbor features in a similar manner to
# the features above during training.
if training:
for i in range(HPARAMS.num_neighbors):
= '{}{}_{}'.format(NBR_FEATURE_PREFIX, i, 'words')
= '{}{}{}'.format(NBR_FEATURE_PREFIX, i,
[nbr_feature_key] = tf.io.FixedLenFeature(
0, dtype=tf.int64, shape=[HPARAMS.max_seq_length]))

# We assign a default value of 0.0 for the neighbor weight so that
# graph regularization is done on samples based on their exact number
# of neighbors. In other words, non-existent neighbors are discounted.
[nbr_weight_key] = tf.io.FixedLenFeature(
[1], tf.float32, default_value=tf.constant([0.0]))

= tf.io.parse_single_example(example_proto, feature_spec)

= features.pop('label')
return features, label

= tf.data.TFRecordDataset([file_path])
if training:
= dataset.shuffle(10000)
= dataset.map(parse_example)
= dataset.batch(HPARAMS.batch_size)
return dataset

= make_dataset(TRAIN_DATA_PATH, training=True)
= make_dataset(TEST_DATA_PATH)

בואו נציץ לתוך מערך הנתונים של הרכבת כדי להסתכל על תוכנו.

for feature_batch, label_batch in train_dataset.take(1):
print('Feature list:', list(feature_batch.keys()))
print('Batch of inputs:', feature_batch['words'])
= '{}{}_{}'.format(NBR_FEATURE_PREFIX, 0, 'words')
print('Batch of neighbor inputs:', feature_batch[nbr_feature_key])
print('Batch of neighbor weights:',
.reshape(feature_batch[nbr_weight_key], [-1]))
print('Batch of labels:', label_batch)
Feature list: ['NL_nbr_0_weight', 'NL_nbr_0_words', 'words']
Batch of inputs: tf.Tensor(
[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 1 0 0]
 [0 0 0 ... 0 0 0]], shape=(128, 1433), dtype=int64)
Batch of neighbor inputs: tf.Tensor(
[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]], shape=(128, 1433), dtype=int64)
Batch of neighbor weights: tf.Tensor(
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.

 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1.], shape=(128,), dtype=float32)
Batch of labels: tf.Tensor(
[2 2 6 2 0 6 1 3 5 0 1 2 3 6 1 1 0 3 5 2 3 1 4 1 6 1 3 2 2 2 0 3 2 1 3 3 2
 3 3 2 3 2 2 0 2 2 6 0 2 1 1 0 5 2 1 4 2 1 2 4 0 2 5 4 3 6 3 2 1 6 2 4 2 2
 6 4 6 4 3 5 2 2 2 4 2 2 2 1 2 2 2 4 2 3 6 2 0 6 6 0 2 6 2 1 2 0 1 1 3 2 0
 2 0 2 1 1 3 5 2 1 2 5 1 6 2 4 6 4], shape=(128,), dtype=int64)

בואו להציץ לתוך מערך הנתונים של הבדיקה כדי להסתכל על תוכנו.

for feature_batch, label_batch in test_dataset.take(1):
print('Feature list:', list(feature_batch.keys()))
print('Batch of inputs:', feature_batch['words'])
print('Batch of labels:', label_batch)
Feature list: ['words']
Batch of inputs: tf.Tensor(
[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]], shape=(128, 1433), dtype=int64)
Batch of labels: tf.Tensor(
[5 2 2 2 1 2 6 3 2 3 6 1 3 6 4 4 2 3 3 0 2 0 5 2 1 0 6 3 6 4 2 2 3 0 4 2 2
 2 2 3 2 2 2 0 2 2 2 2 4 2 3 4 0 2 6 2 1 4 2 0 0 1 4 2 6 0 5 2 2 3 2 5 2 5
 2 3 2 2 2 2 2 6 6 3 2 4 2 6 3 2 2 6 2 4 2 2 1 3 4 6 0 0 2 4 2 1 3 6 6 2 6
 6 6 1 4 6 4 3 6 6 0 0 2 6 2 4 0 0], shape=(128,), dtype=int64)

הגדרת דגם

על מנת להדגים את השימוש בהסדרת גרפים, אנו בונים תחילה מודל בסיס לבעיה זו. נשתמש ברשת עצבית פשוטה להזנה קדימה עם 2 שכבות נסתרות ונשירה ביניהן. אנחנו מדגימים את יצירתו של מודל הבסיס באמצעות כל סוגי מודל נתמך על ידי tf.Keras מסגרת - רציפים, פונקציונלי, ואת תת.

מודל בסיס רציף

def make_mlp_sequential_model(hparams):
"""Creates a sequential multi-layer perceptron model."""
= tf.keras.Sequential()
=(hparams.max_seq_length,), name='words'))
# Input is already one-hot encoded in the integer format. We cast it to
# floating point format here.
.keras.layers.Lambda(lambda x: tf.keras.backend.cast(x, tf.float32)))
for num_units in hparams.num_fc_units:
.add(tf.keras.layers.Dense(num_units, activation='relu'))
# For sequential models, by default, Keras ensures that the 'dropout' layer
# is invoked only during training.
return model

דגם בסיס פונקציונלי

def make_mlp_functional_model(hparams):
"""Creates a functional API-based multi-layer perceptron model."""
= tf.keras.Input(
=(hparams.max_seq_length,), dtype='int64', name='words')

# Input is already one-hot encoded in the integer format. We cast it to
# floating point format here.
= tf.keras.layers.Lambda(
lambda x: tf.keras.backend.cast(x, tf.float32))(

for num_units in hparams.num_fc_units:
= tf.keras.layers.Dense(num_units, activation='relu')(cur_layer)
# For functional models, by default, Keras ensures that the 'dropout' layer
# is invoked only during training.
= tf.keras.layers.Dropout(hparams.dropout_rate)(cur_layer)

= tf.keras.layers.Dense(hparams.num_classes)(cur_layer)

= tf.keras.Model(inputs, outputs=outputs)
return model

מודל בסיס תת-מעמדי

def make_mlp_subclass_model(hparams):
"""Creates a multi-layer perceptron subclass model in Keras."""

class MLP(tf.keras.Model):
"""Subclass model defining a multi-layer perceptron."""

def __init__(self):
super(MLP, self).__init__()
# Input is already one-hot encoded in the integer format. We create a
# layer to cast it to floating point format here.
self.cast_to_float_layer = tf.keras.layers.Lambda(
lambda x: tf.keras.backend.cast(x, tf.float32))
self.dense_layers = [
.keras.layers.Dense(num_units, activation='relu')
for num_units in hparams.num_fc_units
self.dropout_layer = tf.keras.layers.Dropout(hparams.dropout_rate)
self.output_layer = tf.keras.layers.Dense(hparams.num_classes)

def call(self, inputs, training=False):
= self.cast_to_float_layer(inputs['words'])
for dense_layer in self.dense_layers:
= dense_layer(cur_layer)
= self.dropout_layer(cur_layer, training=training)

= self.output_layer(cur_layer)

return outputs

return MLP()

צור מודל/ים בסיסיים

# Create a base MLP model using the functional API.
# Alternatively, you can also create a sequential or subclass base model using
# the make_mlp_sequential_model() or make_mlp_subclass_model() functions
# respectively, defined above. Note that if a subclass model is used, its
# summary cannot be generated until it is built.
, base_model = 'FUNCTIONAL', make_mlp_functional_model(HPARAMS)
Model: "model"
 Layer (type)                Output Shape              Param #   
 words (InputLayer)          [(None, 1433)]            0         
 lambda (Lambda)             (None, 1433)              0         
 dense (Dense)               (None, 50)                71700     
 dropout (Dropout)           (None, 50)                0         
 dense_1 (Dense)             (None, 50)                2550      
 dropout_1 (Dropout)         (None, 50)                0         
 dense_2 (Dense)             (None, 7)                 357       
Total params: 74,607
Trainable params: 74,607
Non-trainable params: 0

דגם MLP בסיס רכבת

# Compile and train the base MLP model
.fit(train_dataset, epochs=HPARAMS.train_epochs, verbose=1)
הערכת מודל MLP בסיסי

# Helper function to print evaluation metrics.
def print_metrics(model_desc, eval_metrics):
"""Prints evaluation metrics.

    model_desc: A description of the model.
    eval_metrics: A dictionary mapping metric names to corresponding values. It
      must contain the loss and accuracy metrics.

print('Eval accuracy for ', model_desc, ': ', eval_metrics['accuracy'])
print('Eval loss for ', model_desc, ': ', eval_metrics['loss'])
if 'graph_loss' in eval_metrics:
print('Eval graph loss for ', model_desc, ': ', eval_metrics['graph_loss'])
eval_results = dict(
.evaluate(test_dataset, steps=HPARAMS.eval_steps)))
('Base MLP model', eval_results)
5/5 [==============================] - 0s 5ms/step - loss: 1.4192 - accuracy: 0.7939

Eval accuracy for  Base MLP model :  0.7938517332077026
Eval loss for  Base MLP model :  1.4192423820495605

הרכבת מודל MLP עם הסדרת גרפים

שילוב להסדרת גרף לתוך מונח האובדן קיים tf.Keras.Model דורש רק כמה שורות של קוד. מודל הבסיס עטוף ליצור חדש tf.Keras מודל תת, אשר אובדנו כולל להסדרת גרף.

כדי להעריך את היתרון המצטבר של הסדרת גרפים, ניצור מופע מודל בסיס חדש. הסיבה לכך היא base_model כבר מאומנת במשך כמה חזרות, ולשימוש חוזר מודל מודרך זה כדי ליצור מודל גרף-סדיר לא תהיה השוואה הוגנת עבור base_model .

# Build a new base MLP model.
, base_reg_model = 'FUNCTIONAL', make_mlp_functional_model(
# Wrap the base MLP model with graph regularization.
= nsl.configs.make_graph_reg_config(
= nsl.keras.GraphRegularization(base_reg_model,
.fit(train_dataset, epochs=HPARAMS.train_epochs, verbose=1)
הערכת מודל MLP עם הסדרת גרפים

eval_results = dict(
.evaluate(test_dataset, steps=HPARAMS.eval_steps)))
('MLP + graph regularization', eval_results)
5/5 [==============================] - 0s 5ms/step - loss: 0.8884 - accuracy: 0.7957

Eval accuracy for  MLP + graph regularization :  0.7956600189208984
Eval loss for  MLP + graph regularization :  0.8883611559867859

הדיוק של המודל סדיר-הגרף הוא כ 2-3% גבוהים יותר מזה של הדגם הבסיסי ( base_model ).


הדגמנו את השימוש בהסדרת גרפים לסיווג מסמכים על גרף ציטוט טבעי (Cora) באמצעות המסגרת של למידה מובנית עצבית (NSL). שלנו הדרכה מתקדמת כרוכה סינתזה גרפים המבוססים על שיבוצים מדגם לפני אימון רשת עצבית עם הסדרת הגרף. גישה זו שימושית אם הקלט אינו מכיל גרף מפורש.

אנו ממליצים למשתמשים להתנסות נוספת על ידי שינוי כמות הפיקוח וכן ניסיון של ארכיטקטורות עצביות שונות להסדרת גרפים.