Bootstrap

用 Python 从零开始创建神经网络(二十一):保存和加载模型及其参数

引言

获取参数

在某些情况下,我们可能需要仔细检查模型的参数,以查看是否存在失效或爆炸的神经元。为了获取这些参数,我们将遍历可训练的层,提取它们的参数并放入一个列表中。这里唯一的可训练层类型是Dense层。让我们为Layer_Dense类添加一个方法来获取参数:

# Dense layer
class Layer_Dense:
	...
    # Retrieve layer parameters
    def get_parameters(self):
        return self.weights, self.biases

Model类中,我们将添加一个get_parameters方法,该方法将遍历模型的可训练层,运行它们的get_parameters方法,并将返回的权重和偏置添加到一个列表中:

# Model class
class Model:
	...
    # Retrieves and returns parameters of trainable layers
    def get_parameters(self):
        # Create a list for parameters
        parameters = []
        # Iterable trainable layers and get their parameters
        for layer in self.trainable_layers:
            parameters.append(layer.get_parameters())
        # Return a list
        return parameters

现在,在训练模型后,我们可以通过运行来获取参数:

parameters = model.get_parameters()

举个例子:

# Create dataset
X, y, X_test, y_test = create_data_mnist('fashion_mnist_images')

# Shuffle the training dataset
keys = np.array(range(X.shape[0]))
np.random.shuffle(keys)
X = X[keys]
y = y[keys]

# Scale and reshape samples
X = (X.reshape(X.shape[0], -1).astype(np.float32) - 127.5) / 127.5
X_test = (X_test.reshape(X_test.shape[0], -1).astype(np.float32) - 127.5) / 127.5

# Instantiate the model
model = Model()

# Add layers
model.add(Layer_Dense(X.shape[1], 128))
model.add(Activation_ReLU())
model.add(Layer_Dense(128, 128))
model.add(Activation_ReLU())
model.add(Layer_Dense(128, 10))
model.add(Activation_Softmax())

# Set loss, optimizer and accuracy objects
model.set(
    loss=Loss_CategoricalCrossentropy(),
    optimizer=Optimizer_Adam(decay=1e-3),
    accuracy=Accuracy_Categorical()
    )

# Finalize the model
model.finalize()

# Train the model
model.train(X, y, validation_data=(X_test, y_test), epochs=10, batch_size=128, print_every=100)

# Retrieve and print parameters
parameters = model.get_parameters()
print(parameters)

它看起来会像这样(为了节省空间,我们对输出进行了截取):

>>>
...
        -0.18927288,  0.0336437 ],
       ...,
       [ 0.02769264,  0.14146185, -0.13853191, ..., -0.13160856,
        -0.13367364,  0.22421911],
       [-0.2422033 , -0.36273137, -0.03640889, ..., -0.07910284,
        -0.10948356, -0.0334659 ],
       [-0.10650896, -0.01283493,  0.05585624, ...,  0.13493767,
        -0.12748371,  0.06437428]], dtype=float32), array([[-2.03783307e-02, -5.95034193e-03,  1.01475455e-02,
         3.62973587e-05, -1.01141036e-02, -1.75972488e-02,
         1.61381923e-02, -6.46391883e-03,  4.84018400e-02,
         9.68032982e-03]], dtype=float32))]

设置参数

如果我们有一个获取参数的方法,我们可能也会希望有一个设置参数的方法。我们将以类似于设置get_parameters方法的方式来实现,从Layer_Dense类开始:

# Dense layer
class Layer_Dense:
	...
    # Set weights and biases in a layer instance
    def set_parameters(self, weights, biases):
        self.weights = weights
        self.biases = biases

然后我们就可以更新模型类了:

# Model class
class Model:
	...
    # Updates the model with new parameters
    def set_parameters(self, parameters):
        # Iterate over the parameters and layers
        # and update each layers with each set of the parameters
        for parameter_set, layer in zip(parameters, self.trainable_layers):
            layer.set_parameters(*parameter_set)

我们在这里也遍历了可训练的层,但接下来的操作需要稍作解释。首先,zip()函数接收可迭代对象(如列表),并返回一个新的迭代器,其中包含所有传入参数的成对组合。换句话说(以我们的示例为例),zip()将一个参数列表和一个层列表组合在一起,返回一个迭代器,包含这两个列表的第0个元素的元组,然后是第1个元素的元组,再到第2个元素的元组,以此类推。通过这种方式,我们可以同时遍历参数和它们所属的层。

由于我们的参数是包含权重和偏置的元组,我们会使用一个解包表达式将它们分开,以便Layer_Dense方法可以将它们作为单独的参数接收。这种方法为我们提供了灵活性,使我们可以使用具有不同参数组数量的层。

目前的一个区别是,这允许我们拥有一个从未需要优化器的模型。如果我们不训练模型,而是将已训练的参数加载到模型中,那么我们不会优化任何内容。为了解决这一点,我们需要访问Model类的finalize方法,并进行以下更改:

# Model class
class Model:
    ...
    # Finalize the model
    def finalize(self):
        ...
            # Update loss object with trainable layers
            self.loss.remember_trainable_layers(self.trainable_layers)

改为(我们添加了一个if语句,只有在损失对象存在时,才将可训练层的列表设置为损失函数):

# Model class
class Model:
    ...
    # Finalize the model
    def finalize(self):
        ...
            # Update loss object with trainable layers
            # self.loss.remember_trainable_layers(self.trainable_layers)
            if self.loss is not None:
                self.loss.remember_trainable_layers(self.trainable_layers)

接下来,我们将修改Model类的set方法,使其允许仅传入指定的参数。我们将为参数分配默认值,并添加if语句,以便仅在参数存在时使用它们。为此,我们将进行以下更改:

# Model class
class Model:
	...
    # Set loss, optimizer and accuracy
    def set(self, *, loss, optimizer, accuracy):
        self.loss = loss
        self.optimizer = optimizer
        self.accuracy = accuracy

改为:

# Model class
class Model:
	...
    # Set loss, optimizer and accuracy
    def set(self, *, loss=None, optimizer=None, accuracy=None):
        if loss is not None:
            self.loss = loss
        if optimizer is not None:
            self.optimizer = optimizer
        if accuracy is not None:
            self.accuracy = accuracy

现在我们可以训练一个模型,获取其参数,创建一个新模型,并将从之前训练的模型中检索到的参数设置到新模型中:

>>>
(model training output removed)
validation, acc: 0.874, loss: 0.354
validation, acc: 0.874, loss: 0.354

保存参数

现在我们将进一步扩展,实际将参数保存到文件中。为此,我们将在Model类中添加一个save_parameters方法。我们将使用Python内置的pickle模块来序列化任何Python对象。序列化是将对象(可以是任何抽象形式)转换为二进制表示形式的过程,即一组可以保存到文件中的字节。这种序列化形式包含了以后重新创建对象所需的所有信息。pickle可以返回序列化对象的字节,也可以直接将其保存到文件中。我们将利用后者的功能,因此先导入pickle模块:

import pickle

然后,我们将在Model类中添加一个新方法。在使用pickle将参数保存到文件之前,我们需要通过以二进制写模式打开文件来创建文件句柄。然后将这个句柄和数据一起传递给pickle.dump()。为了创建文件,我们需要一个文件名来保存数据,我们会将其作为一个参数传入:

# Model class
class Model:
	...
    # Saves the parameters to a file
    def save_parameters(self, path):
        # Open a file in the binary-write mode
        # and save parameters to it
        with open(path, 'wb') as f:
            pickle.dump(self.get_parameters(), f)

使用这种方法,您可以通过运行来保存训练模型的参数:

model.save_parameters('fashion_mnist.parms')

加载参数

如果我们将模型参数保存到文件中,显然我们也希望有一种方法可以从该文件中加载它们。加载参数与保存参数非常相似,只是过程相反。我们会以二进制读取模式打开文件,并使用pickle从中读取数据,将参数反序列化回一个列表。然后调用之前创建的set_parameters方法,并将加载的参数传入:

# Model class
class Model:
	...
    # Loads the weights and updates a model instance with them
    def load_parameters(self, path):
        # Open file in the binary-read mode,
        # load weights and update trainable layers
        with open(path, 'rb') as f:
            self.set_parameters(pickle.load(f))

我们设置一个模型,加载参数文件(我们没有训练这个模型),然后测试模型以检查其是否正常工作:

我们需要使用model.save_parameters('fashion_mnist.parms')保存训练之后的参数再进行加载model.load_parameters('fashion_mnist.parms')

# Create dataset
X, y, X_test, y_test = create_data_mnist('fashion_mnist_images')

# Shuffle the training dataset
keys = np.array(range(X.shape[0]))
np.random.shuffle(keys)
X = X[keys]
y = y[keys]

# Scale and reshape samples
X = (X.reshape(X.shape[0], -1).astype(np.float32) - 127.5) / 127.5
X_test = (X_test.reshape(X_test.shape[0], -1).astype(np.float32) - 127.5) / 127.5

# Instantiate the model
model = Model()

# Add layers
model.add(Layer_Dense(X.shape[1], 128))
model.add(Activation_ReLU())
model.add(Layer_Dense(128, 128))
model.add(Activation_ReLU())
model.add(Layer_Dense(128, 10))
model.add(Activation_Softmax())

# Set loss and accuracy objects
# We do not set optimizer object this time - there's no need to do it
# as we won't train the model
model.set(
    loss=Loss_CategoricalCrossentropy(),
    # optimizer=Optimizer_Adam(decay=1e-4),
    accuracy=Accuracy_Categorical()
    )

# Finalize the model
model.finalize()

# # Train the model
# model.train(X, y, validation_data=(X_test, y_test), epochs=10, batch_size=128, print_every=100)

# # Save the model
# model.save_parameters('fashion_mnist.parms')


# Set model with parameters instead of training it
model.load_parameters('fashion_mnist.parms')

# Evaluate the model
model.evaluate(X_test, y_test)
>>>
validation, acc: 0.884, loss: 0.352

虽然我们可以保存和加载模型参数值,但仍然需要定义模型。它必须与我们导入参数的模型配置完全相同。如果我们能够直接保存模型本身,会更方便。


保存模型

为什么一开始我们没有直接保存整个模型呢?保存权重和保存整个模型有不同的使用场景,各有优劣。通过保存的权重,你可以,例如,用这些权重初始化一个模型,这些权重是从类似数据训练得来的,然后训练这个模型以适应你的特定数据。这被称为迁移学习(transfer learning),本书不涉及这一内容。权重还可以用于可视化模型(例如,本书从第6章开始创建的一些动画)、识别失效的神经元、实现更复杂的模型(例如强化学习,将多个模型的权重合并到一个网络中)等。此外,仅包含权重的文件比整个模型小得多。从权重初始化的模型加载速度更快,占用内存更少,因为不会创建优化器和相关部分。

仅加载权重和偏置的一个缺点是,初始化的模型不包含优化器的状态。如果需要进一步训练模型,可以继续训练,但如果计划继续训练,加载完整模型更为理想。保存完整模型时,所有与模型相关的内容都会被保存,包括优化器的状态(这使我们能够轻松继续训练)以及模型的结构。

我们将在Model类中创建另一个方法,用于保存整个模型。首先,我们将复制一份模型,因为我们会在保存之前对其进行编辑,同时我们可能希望在训练过程中保存模型作为检查点。

我们导入copy模块来支持这一点:

import copy
# Model class
class Model:
	...
    # Saves the model
    def save(self, path):
        # Make a deep copy of current model instance
        model = copy.deepcopy(self)

copy模块提供了两种方法用于复制模型——copydeepcopy。虽然copy速度更快,但它只复制对象属性的第一层,这会导致复制的模型对象与原始模型共享某些引用。例如,我们的模型对象有一个包含层的列表——该列表是顶层属性,而层本身是次级属性——因此,对层对象的引用将被原始模型对象和复制的模型对象共享。由于copy方法的这些局限性,我们将使用deepcopy方法,它会递归地遍历所有对象并创建完整的副本。

接下来,我们将移除累积的损失和准确率。

# Model class
class Model:
	...
    # Saves the model
    def save(self, path):
        # Make a deep copy of current model instance
        model = copy.deepcopy(self)
        # Reset accumulated values in loss and accuracy objects
        model.loss.new_pass()
        model.accuracy.new_pass()

然后删除输入层中的任何数据,并重置梯度(如果有的话):

# Model class
class Model:
	...
    # Saves the model
    def save(self, path):
        # Make a deep copy of current model instance
        model = copy.deepcopy(self)
        # Reset accumulated values in loss and accuracy objects
        model.loss.new_pass()
        model.accuracy.new_pass()
        # Remove data from input layer
        # and gradients from the loss object
        model.input_layer.__dict__.pop('output', None)
        model.loss.__dict__.pop('dinputs', None)

model.input_layermodel.loss都是类实例。它们是Model对象的属性,同时也是独立的对象。所有类都具有一个名为__dict__的双下划线属性(被称为“dunder”属性,因为它有双下划线)。它包含了类对象属性的名称和值。

我们可以在这些值上使用内置的pop方法,这意味着可以将它们从类对象的实例中移除。pop方法如果遇到我们传入的键(作为第一个参数)不存在的情况,会抛出一个错误,因为pop方法希望返回被移除键的值。为了防止这些错误,我们使用pop方法的第二个参数——这是键不存在时我们希望返回的默认值。我们将这个参数设置为None,因为我们不打算捕获被移除的值,并且默认值是什么实际上并不重要。

通过这种方式,我们不需要检查某个属性是否存在(比如当我们想用del语句删除它时,某些属性可能不存在)。

接下来,我们将遍历所有图层,删除它们的属性:

        # For each layer remove inputs, output and dinputs properties
        for layer in model.layers:
            for property in ['inputs', 'output', 'dinputs', 'dweights', 'dbiases']:
                layer.__dict__.pop(property, None)

在清理这些内容后,我们可以保存模型对象。为此,我们需要以二进制写模式打开一个文件,并使用pickle.dump()方法,将模型对象和文件句柄作为参数传入:

        # Open a file in the binary-write mode and save the model
        with open(path, 'wb') as f:
            pickle.dump(model, f)

这就是完整的save方法:

# Model class
class Model:
	...
    # Saves the model
    def save(self, path):
        # Make a deep copy of current model instance
        model = copy.deepcopy(self)
        # Reset accumulated values in loss and accuracy objects
        model.loss.new_pass()
        model.accuracy.new_pass()
        # Remove data from input layer
        # and gradients from the loss object
        model.input_layer.__dict__.pop('output', None)
        model.loss.__dict__.pop('dinputs', None)
        # For each layer remove inputs, output and dinputs properties
        for layer in model.layers:
            for property in ['inputs', 'output', 'dinputs', 'dweights', 'dbiases']:
                layer.__dict__.pop(property, None)
        # Open a file in the binary-write mode and save the model
        with open(path, 'wb') as f:
            pickle.dump(model, f)

这意味着我们可以训练一个模型,然后随时保存它:

model.save('fashion_mnist.model')

加载模型

加载模型最好在模型对象尚未存在之前进行。我们的意思是,可以通过调用Model类的方法来加载模型,而不是通过对象调用:

model = Model.load('fashion_mnist.model')

为实现这一点,我们将使用@staticmethod装饰器。这个装饰器可以与类方法一起使用,以便在未初始化的对象上运行这些方法,此时self并不存在(注意它在函数定义中缺失)。在我们的例子中,我们将使用它直接创建一个模型对象,而无需先实例化模型对象。

在此方法中,我们将使用传入的路径以二进制读取模式打开一个文件,并使用pickle来反序列化保存的模型:

# Model class
class Model:
	...
    # Loads and returns a model
    @staticmethod
    def load(path):
        # Open file in the binary-read mode, load a model
        with open(path, 'rb') as f:
            model = pickle.load(f)
        # Return a model
        return model

由于我们已经有一个保存的模型,现在让我们创建数据,然后加载模型以查看它是否正常工作:

# Create dataset
X, y, X_test, y_test = create_data_mnist('fashion_mnist_images')

# Shuffle the training dataset
keys = np.array(range(X.shape[0]))
np.random.shuffle(keys)
X = X[keys]
y = y[keys]

# Scale and reshape samples
X = (X.reshape(X.shape[0], -1).astype(np.float32) - 127.5) / 127.5
X_test = (X_test.reshape(X_test.shape[0], -1).astype(np.float32) - 127.5) / 127.5

# Load the model
model = Model.load('fashion_mnist.model')

# Evaluate the model
model.evaluate(X_test, y_test)
>>>
validation, acc: 0.884, loss: 0.352

保存完整的已训练模型是保存模型的一种常见方式。它保存了参数(权重和偏置)、所有模型对象的实例以及它们生成的数据。例如,这包括优化器的状态(如缓存、学习率衰减)、完整的模型结构等。

在这种情况下,加载模型只需调用一个方法,模型就可以直接使用,无论是继续训练还是用于预测。



本章的章节代码、更多资源和勘误表:https://nnfs.io/ch21

;