Khám phá Nhúng xoay TF-Hub CORD-19

Các CORD-19 xoay văn bản nhúng mô-đun từ TF-Hub ( ) được xây dựng để các nhà nghiên cứu hỗ trợ việc phân tích ngôn ngữ văn bản tự nhiên liên quan đến COVID-19. Những embeddings được tập huấn về các tiêu đề, tác giả, tóm tắt, văn bản cơ thể, và các chức danh tham khảo các bài viết trong tập dữ liệu CORD-19 .

Trong chuyên mục này, chúng tôi sẽ:

  • Phân tích các từ tương tự về mặt ngữ nghĩa trong không gian nhúng
  • Đào tạo người phân loại trên tập dữ liệu SciCite bằng cách sử dụng nhúng CORD-19

Thành lập

import functools
import itertools
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
import pandas as pd

import tensorflow.compat.v1 as tf

import tensorflow_datasets as tfds
import tensorflow_hub as hub

from google.colab import data_table
def display_df(df):
return data_table.DataTable(df, include_index=False)
except ModuleNotFoundError:
# If google-colab is not available, just display the raw DataFrame
def display_df(df):
return df

Phân tích các nhúng

Hãy bắt đầu bằng cách phân tích nhúng bằng cách tính toán và vẽ một ma trận tương quan giữa các thuật ngữ khác nhau. Nếu phương pháp nhúng đã học để nắm bắt thành công ý nghĩa của các từ khác nhau, thì các vectơ nhúng của các từ tương tự về mặt ngữ nghĩa phải gần nhau. Chúng ta hãy xem xét một số thuật ngữ liên quan đến COVID-19.

# Use the inner product between two embedding vectors as the similarity measure
def plot_correlation(labels, features):
= np.inner(features, features)
/= np.max(corr)
.heatmap(corr, xticklabels=labels, yticklabels=labels)

with tf.Graph().as_default():
# Load the module
= tf.placeholder(tf.string)
module = hub.Module('')
= module(query_input)

with tf.train.MonitoredTrainingSession() as sess:

# Generate embeddings for some terms
= [
# Related viruses
"coronavirus", "SARS", "MERS",
# Regions
"Italy", "Spain", "Europe",
# Symptoms
"cough", "fever", "throat"

=, feed_dict={query_input: queries})
(queries, features)
Chúng ta có thể thấy rằng việc nhúng đã nắm bắt thành công ý nghĩa của các thuật ngữ khác nhau. Mỗi từ tương tự với các từ khác trong cụm của nó (tức là "coronavirus" có tương quan cao với "SARS" và "MERS"), trong khi chúng khác với các từ của các cụm khác (nghĩa là sự giống nhau giữa "SARS" và "Tây Ban Nha" là gần bằng 0).

Bây giờ chúng ta hãy xem cách chúng ta có thể sử dụng các nhúng này để giải quyết một nhiệm vụ cụ thể.

SciCite: Phân loại ý định trích dẫn

Phần này cho thấy cách người ta có thể sử dụng tính năng nhúng cho các tác vụ phía dưới, chẳng hạn như phân loại văn bản. Chúng tôi sẽ sử dụng các dữ liệu SciCite từ TensorFlow Datasets để intents trích dẫn classify trong giấy tờ học tập. Đưa ra một câu có trích dẫn từ một bài báo học thuật, hãy phân loại xem mục đích chính của trích dẫn là làm thông tin cơ bản, sử dụng các phương pháp hay so sánh kết quả.

Thiết lập tập dữ liệu từ TFDS

class Dataset:
"""Build a dataset from a TFDS dataset."""
def __init__(self, tfds_name, feature_name, label_name):
self.dataset_builder = tfds.builder(tfds_name)
self.feature_name = feature_name
self.label_name = label_name

def get_data(self, for_eval):
if tfds.Split.TEST in splits:
= tfds.Split.TEST if for_eval else tfds.Split.TRAIN
= 80
= "train[{}%:]".format(SPLIT_PERCENT) if for_eval else "train[:{}%]".format(SPLIT_PERCENT)
return self.dataset_builder.as_dataset(split=split)

def num_classes(self):

def class_names(self):

def preprocess_fn(self, data):
return data[self.feature_name], data[self.label_name]

def example_fn(self, data):
, label = self.preprocess_fn(data)
return {'feature': feature, 'label': label}, label

def get_example_data(dataset, num_examples, **data_kw):
"""Show example data"""
with tf.Session() as sess:
= dataset.get_data(**data_kw).take(num_examples).map(dataset.preprocess_fn).batch(num_examples)
return data

= 'scicite'
= 'string'
= 'label'

Hãy xem một vài ví dụ được gắn nhãn từ tập huấn luyện

= get_example_data(THE_DATASET, NUM_EXAMPLES, for_eval=False)
: [ex.decode('utf8') for ex in data[0]],
: [THE_DATASET.class_names()[x] for x in data[1]]

Đào tạo một trình phân loại ý định citaton

Chúng tôi sẽ đào tạo một phân loại trên bộ dữ liệu SciCite sử dụng Công cụ Ước tính. Hãy thiết lập input_fns để đọc tập dữ liệu vào mô hình

def preprocessed_input_fn(for_eval):
= THE_DATASET.get_data(for_eval=for_eval)
=, num_parallel_calls=1)
return data

def input_fn_train(params):
= preprocessed_input_fn(for_eval=False)
= data.repeat(None)
= data.shuffle(1024)
= data.batch(batch_size=params['batch_size'])
return data

def input_fn_eval(params):
= preprocessed_input_fn(for_eval=True)
= data.repeat(1)
= data.batch(batch_size=params['batch_size'])
return data

def input_fn_predict(params):
= preprocessed_input_fn(for_eval=True)
= data.batch(batch_size=params['batch_size'])
return data

Hãy xây dựng một mô hình sử dụng nhúng CORD-19 với một lớp phân loại ở trên cùng.

def model_fn(features, labels, mode, params):
# Embed the text
= hub.Module(params['module_name'], trainable=params['trainable_module'])
= embed(features['feature'])

# Add a linear layer on top
= tf.layers.dense(
, units=THE_DATASET.num_classes(), activation=None)
= tf.argmax(input=logits, axis=1)

if mode == tf.estimator.ModeKeys.PREDICT:
return tf.estimator.EstimatorSpec(
'logits': logits,
'predictions': predictions,
'features': features['feature'],
'labels': features['label']

# Set up a multi-class classification head
= tf.nn.sparse_softmax_cross_entropy_with_logits(
=labels, logits=logits)
= tf.reduce_mean(loss)

if mode == tf.estimator.ModeKeys.TRAIN:
= tf.train.GradientDescentOptimizer(learning_rate=params['learning_rate'])
= optimizer.minimize(loss, global_step=tf.train.get_or_create_global_step())
return tf.estimator.EstimatorSpec(mode=mode, loss=loss, train_op=train_op)

elif mode == tf.estimator.ModeKeys.EVAL:
= tf.metrics.accuracy(labels=labels, predictions=predictions)
= tf.metrics.precision(labels=labels, predictions=predictions)
= tf.metrics.recall(labels=labels, predictions=predictions)

return tf.estimator.EstimatorSpec(
'accuracy': accuracy,
'precision': precision,
'recall': recall,


= False
=   8000
= 200
= 10
= 0.01

params = {
'batch_size': BATCH_SIZE,
'learning_rate': LEARNING_RATE,
'module_name': EMBEDDING,
'trainable_module': TRAINABLE_MODULE

Đào tạo và đánh giá mô hình

Hãy cùng đào tạo và đánh giá mô hình để xem hiệu suất trên tác vụ SciCite

estimator = tf.estimator.Estimator(functools.partial(model_fn, params=params))
= []

for step in range(0, STEPS, EVAL_EVERY):
.train(input_fn=functools.partial(input_fn_train, params=params), steps=EVAL_EVERY)
= estimator.evaluate(input_fn=functools.partial(input_fn_eval, params=params))
print('Global step {}: loss {:.3f}, accuracy {:.3f}'.format(step, step_metrics['loss'], step_metrics['accuracy']))
Global step 0: loss 0.795, accuracy 0.683
Global step 200: loss 0.720, accuracy 0.725
Global step 400: loss 0.685, accuracy 0.735
Global step 600: loss 0.657, accuracy 0.743
Global step 800: loss 0.628, accuracy 0.766
Global step 1000: loss 0.612, accuracy 0.771
Global step 1200: loss 0.597, accuracy 0.776
Global step 1400: loss 0.590, accuracy 0.779
Global step 1600: loss 0.590, accuracy 0.779
Global step 1800: loss 0.578, accuracy 0.779
Global step 2000: loss 0.587, accuracy 0.773
Global step 2200: loss 0.573, accuracy 0.785
Global step 2400: loss 0.566, accuracy 0.785
Global step 2600: loss 0.575, accuracy 0.775
Global step 2800: loss 0.563, accuracy 0.782
Global step 3000: loss 0.566, accuracy 0.783
Global step 3200: loss 0.560, accuracy 0.784
Global step 3400: loss 0.561, accuracy 0.781
Global step 3600: loss 0.551, accuracy 0.789
Global step 3800: loss 0.552, accuracy 0.783
Global step 4000: loss 0.560, accuracy 0.779
Global step 4200: loss 0.547, accuracy 0.790
Global step 4400: loss 0.558, accuracy 0.781
Global step 4600: loss 0.548, accuracy 0.787
Global step 4800: loss 0.541, accuracy 0.792
Global step 5000: loss 0.546, accuracy 0.784
Global step 5200: loss 0.539, accuracy 0.790
Global step 5400: loss 0.540, accuracy 0.788
Global step 5600: loss 0.544, accuracy 0.785
Global step 5800: loss 0.539, accuracy 0.790
Global step 6000: loss 0.544, accuracy 0.788
Global step 6200: loss 0.536, accuracy 0.789
Global step 6400: loss 0.537, accuracy 0.788
Global step 6600: loss 0.544, accuracy 0.790
Global step 6800: loss 0.539, accuracy 0.784
Global step 7000: loss 0.539, accuracy 0.788
Global step 7200: loss 0.536, accuracy 0.784
Global step 7400: loss 0.534, accuracy 0.785
Global step 7600: loss 0.535, accuracy 0.784
Global step 7800: loss 0.539, accuracy 0.788
global_steps = [x['global_step'] for x in metrics]
, axes = plt.subplots(ncols=2, figsize=(20,8))

for axes_index, metric_names in enumerate([['accuracy', 'precision', 'recall'],
for metric_name in metric_names:
[axes_index].plot(global_steps, [x[metric_name] for x in metrics], label=metric_name)
[axes_index].set_xlabel("Global Step")


Chúng ta có thể thấy rằng sự mất mát nhanh chóng giảm đi trong khi đặc biệt là độ chính xác tăng lên nhanh chóng. Hãy vẽ một số ví dụ để kiểm tra mức độ liên quan của dự đoán với các nhãn thực:

predictions = estimator.predict(functools.partial(input_fn_predict, params))
first_10_predictions = list(itertools.islice(predictions, 10))

: [pred['features'].decode('utf8') for pred in first_10_predictions],
: [THE_DATASET.class_names()[pred['labels']] for pred in first_10_predictions],
'prediction': [THE_DATASET.class_names()[pred['predictions']] for pred in first_10_predictions]
Chúng ta có thể thấy rằng đối với mẫu ngẫu nhiên này, mô hình dự đoán nhãn chính xác hầu hết các lần, cho thấy rằng nó có thể nhúng các câu khoa học khá tốt.

Cái gì tiếp theo?

Bây giờ bạn đã biết thêm một chút về nhúng CORD-19 Swivel từ TF-Hub, chúng tôi khuyến khích bạn tham gia cuộc thi CORD-19 Kaggle để góp phần thu được những hiểu biết khoa học từ các văn bản học thuật liên quan đến COVID-19.