متن CORD-19 مفصل گردنده تعبیه ماژول از TF-توپی ( https://tfhub.dev/tensorflow/cord-19/swivel-128d/1 ) به محققان پشتیبانی تجزیه و تحلیل متن زبان های طبیعی مربوط به COVID-19 ساخته شده است. این درونه گیریها بر روی عناوین، نویسندگان، چکیده، متون بدن، و عناوین مرجع مقالات در آموزش داده شدند CORD-19 مجموعه داده .
در این کولب ما:
- کلمات مشابه معنایی را در فضای جاسازی تجزیه و تحلیل کنید
- با استفاده از تعبیههای CORD-19، یک طبقهبندی بر روی مجموعه داده SciCite آموزش دهید
import functools
import itertools
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
import pandas as pd
import tensorflow.compat.v1 as tf
import tensorflow_datasets as tfds
import tensorflow_hub as hub
from google.colab import data_table
def display_df(df):
return data_table.DataTable(df, include_index=False)
except ModuleNotFoundError:
# If google-colab is not available, just display the raw DataFrame
def display_df(df):
return df
تعبیه ها را تجزیه و تحلیل کنید
بیایید با تجزیه و تحلیل تعبیه با محاسبه و رسم یک ماتریس همبستگی بین عبارات مختلف شروع کنیم. اگر جاسازی یاد گرفت که معنی کلمات مختلف را با موفقیت دریافت کند، بردارهای جاسازی کلمات از نظر معنایی مشابه باید به هم نزدیک باشند. بیایید نگاهی به برخی اصطلاحات مرتبط با COVID-19 بیندازیم.
# Use the inner product between two embedding vectors as the similarity measure
def plot_correlation(labels, features):
corr = np.inner(features, features)
corr /= np.max(corr)
sns.heatmap(corr, xticklabels=labels, yticklabels=labels)
with tf.Graph().as_default():
# Load the module
query_input = tf.placeholder(tf.string)
module = hub.Module('https://tfhub.dev/tensorflow/cord-19/swivel-128d/1')
embeddings = module(query_input)
with tf.train.MonitoredTrainingSession() as sess:
# Generate embeddings for some terms
queries = [
# Related viruses
"coronavirus", "SARS", "MERS",
# Regions
"Italy", "Spain", "Europe",
# Symptoms
"cough", "fever", "throat"
features = sess.run(embeddings, feed_dict={query_input: queries})
plot_correlation(queries, features)
میتوانیم ببینیم که تعبیه با موفقیت معنای اصطلاحات مختلف را به دست آورد. هر کلمه مشابه سایر کلمات خوشه خود است (یعنی "کرونا ویروس" با "SARS" و "MERS" همبستگی زیادی دارد)، در حالی که آنها با اصطلاحات دیگر خوشه ها متفاوت هستند (یعنی شباهت بین "SARS" و "Spain" نزدیک به 0).
حال بیایید ببینیم چگونه می توانیم از این تعبیه ها برای حل یک کار خاص استفاده کنیم.
SciCite: Citation Intent Classification
این بخش نشان می دهد که چگونه می توان از جاسازی برای کارهای پایین دستی مانند طبقه بندی متن استفاده کرد. ما می خواهیم با استفاده از مجموعه داده SciCite از TensorFlow مجموعه داده به مفاهیم استناد طبقه بندی در مقالات آکادمیک. با توجه به جمله ای با استناد از یک مقاله دانشگاهی، طبقه بندی کنید که آیا هدف اصلی استناد به عنوان اطلاعات پس زمینه، استفاده از روش ها یا مقایسه نتایج است.
مجموعه داده را از TFDS تنظیم کنید
class Dataset:
"""Build a dataset from a TFDS dataset."""
def __init__(self, tfds_name, feature_name, label_name):
self.dataset_builder = tfds.builder(tfds_name)
self.feature_name = feature_name
self.label_name = label_name
def get_data(self, for_eval):
splits = THE_DATASET.dataset_builder.info.splits
if tfds.Split.TEST in splits:
split = tfds.Split.TEST if for_eval else tfds.Split.TRAIN
split = "train[{}%:]".format(SPLIT_PERCENT) if for_eval else "train[:{}%]".format(SPLIT_PERCENT)
return self.dataset_builder.as_dataset(split=split)
def num_classes(self):
return self.dataset_builder.info.features[self.label_name].num_classes
def class_names(self):
return self.dataset_builder.info.features[self.label_name].names
def preprocess_fn(self, data):
return data[self.feature_name], data[self.label_name]
def example_fn(self, data):
feature, label = self.preprocess_fn(data)
return {'feature': feature, 'label': label}, label
def get_example_data(dataset, num_examples, **data_kw):
"""Show example data"""
with tf.Session() as sess:
batched_ds = dataset.get_data(**data_kw).take(num_examples).map(dataset.preprocess_fn).batch(num_examples)
it = tf.data.make_one_shot_iterator(batched_ds).get_next()
data = sess.run(it)
return data
TFDS_NAME = 'scicite'
LABEL_NAME = 'label'
بیایید به چند نمونه برچسب گذاری شده از مجموعه آموزشی نگاهی بیندازیم
data = get_example_data(THE_DATASET, NUM_EXAMPLES, for_eval=False)
TEXT_FEATURE_NAME: [ex.decode('utf8') for ex in data[0]],
LABEL_NAME: [THE_DATASET.class_names()[x] for x in data[1]]
آموزش یک طبقهبندی کننده قصد سیتاتون
ما یک طبقه بندی در قطار مجموعه داده SciCite با استفاده از یک برآورد. اجازه دهید input_fns را برای خواندن مجموعه داده در مدل تنظیم کنیم
def preprocessed_input_fn(for_eval):
data = THE_DATASET.get_data(for_eval=for_eval)
data = data.map(THE_DATASET.example_fn, num_parallel_calls=1)
return data
def input_fn_train(params):
data = preprocessed_input_fn(for_eval=False)
data = data.repeat(None)
data = data.shuffle(1024)
data = data.batch(batch_size=params['batch_size'])
return data
def input_fn_eval(params):
data = preprocessed_input_fn(for_eval=True)
data = data.repeat(1)
data = data.batch(batch_size=params['batch_size'])
return data
def input_fn_predict(params):
data = preprocessed_input_fn(for_eval=True)
data = data.batch(batch_size=params['batch_size'])
return data
بیایید مدلی بسازیم که از تعبیههای CORD-19 با یک لایه طبقهبندی در بالا استفاده میکند.
def model_fn(features, labels, mode, params):
# Embed the text
embed = hub.Module(params['module_name'], trainable=params['trainable_module'])
embeddings = embed(features['feature'])
# Add a linear layer on top
logits = tf.layers.dense(
embeddings, units=THE_DATASET.num_classes(), activation=None)
predictions = tf.argmax(input=logits, axis=1)
if mode == tf.estimator.ModeKeys.PREDICT:
return tf.estimator.EstimatorSpec(
'logits': logits,
'predictions': predictions,
'features': features['feature'],
'labels': features['label']
# Set up a multi-class classification head
loss = tf.nn.sparse_softmax_cross_entropy_with_logits(
labels=labels, logits=logits)
loss = tf.reduce_mean(loss)
if mode == tf.estimator.ModeKeys.TRAIN:
optimizer = tf.train.GradientDescentOptimizer(learning_rate=params['learning_rate'])
train_op = optimizer.minimize(loss, global_step=tf.train.get_or_create_global_step())
return tf.estimator.EstimatorSpec(mode=mode, loss=loss, train_op=train_op)
elif mode == tf.estimator.ModeKeys.EVAL:
accuracy = tf.metrics.accuracy(labels=labels, predictions=predictions)
precision = tf.metrics.precision(labels=labels, predictions=predictions)
recall = tf.metrics.recall(labels=labels, predictions=predictions)
return tf.estimator.EstimatorSpec(
'accuracy': accuracy,
'precision': precision,
'recall': recall,
EMBEDDING = 'https://tfhub.dev/tensorflow/cord-19/swivel-128d/1'
STEPS = 8000
params = {
'batch_size': BATCH_SIZE,
'learning_rate': LEARNING_RATE,
'module_name': EMBEDDING,
'trainable_module': TRAINABLE_MODULE
آموزش و ارزیابی مدل
بیایید مدل را آموزش دهیم و ارزیابی کنیم تا عملکرد SciCite را ببینیم
estimator = tf.estimator.Estimator(functools.partial(model_fn, params=params))
metrics = []
for step in range(0, STEPS, EVAL_EVERY):
estimator.train(input_fn=functools.partial(input_fn_train, params=params), steps=EVAL_EVERY)
step_metrics = estimator.evaluate(input_fn=functools.partial(input_fn_eval, params=params))
print('Global step {}: loss {:.3f}, accuracy {:.3f}'.format(step, step_metrics['loss'], step_metrics['accuracy']))
global_steps = [x['global_step'] for x in metrics]
fig, axes = plt.subplots(ncols=2, figsize=(20,8))
for axes_index, metric_names in enumerate([['accuracy', 'precision', 'recall'],
for metric_name in metric_names:
axes[axes_index].plot(global_steps, [x[metric_name] for x in metrics], label=metric_name)
axes[axes_index].set_xlabel("Global Step")
می بینیم که ضرر به سرعت کاهش می یابد در حالی که به ویژه دقت به سرعت افزایش می یابد. بیایید چند مثال برای بررسی ارتباط این پیشبینی با برچسبهای واقعی ترسیم کنیم:
predictions = estimator.predict(functools.partial(input_fn_predict, params))
first_10_predictions = list(itertools.islice(predictions, 10))
TEXT_FEATURE_NAME: [pred['features'].decode('utf8') for pred in first_10_predictions],
LABEL_NAME: [THE_DATASET.class_names()[pred['labels']] for pred in first_10_predictions],
'prediction': [THE_DATASET.class_names()[pred['predictions']] for pred in first_10_predictions]
میتوانیم ببینیم که برای این نمونه تصادفی، مدل اغلب اوقات برچسب صحیح را پیشبینی میکند، که نشان میدهد میتواند جملات علمی را به خوبی جاسازی کند.
بعدش چی؟
اکنون که کمی بیشتر با جاسازیهای چرخشی CORD-19 از TF-Hub آشنا شدهاید، شما را تشویق میکنیم در مسابقه CORD-19 Kaggle شرکت کنید تا در به دست آوردن بینش علمی از متون دانشگاهی مرتبط با COVID-19 مشارکت کنید.
- شرکت در Kaggle چالش CORD-19
- اطلاعات بیشتر در مورد COVID-19 گسترش تحقیقات مجموعه داده (CORD-19)
- مشاهده مستندات و بیشتر در مورد درونه گیریها TF-توپی در https://tfhub.dev/tensorflow/cord-19/swivel-128d/1
- کاوش در فضا CORD-19 تعبیه با TensorFlow کدهای جاسازی پروژکتور