Bootstrap

scikit-learn使用joblib持久化模型过程中的问题详解

机器学习过程中,一般用来训练模型的过程比较长,所以我们一般会将训练的模型进行保存(持久化),然后进行评估,预测等等,这样便可以节省大量的时间。


在模型持久化过程中,我们使用scikit-learn提供的joblib.dump()方法,但是在使用过程中会出现很多问题。如我们使用如下语句:

[python]  view plain  copy
  1. joblib.dump(clf,'../../data/model/randomforest.pkl')  
此语句将产生大量的模型文件,如下图所示


然后,我们再使用joblib.load(‘../../data/model/randomforest.pkl’)进行加载,会出现如下错误

[python]  view plain  copy
  1. Traceback (most recent call last):  
  2.   File "E:\workspace\forest\com\baihe\RandomForest_losing.py", line 65in <module>  
  3.     clf = joblib.load('../../data/model/randomforest.pkl')  
  4.   File "D:\Program Files\python27\lib\site-packages\sklearn\externals\joblib\numpy_pickle.py", line 425in load  
  5.     obj = unpickler.load()  
  6.   File "D:\Program Files\python27\lib\pickle.py", line 858in load  
  7.     dispatch[key](self)  
  8.   File "D:\Program Files\python27\lib\site-packages\sklearn\externals\joblib\numpy_pickle.py", line 285in load_build  
  9.     Unpickler.load_build(self)  
  10.   File "D:\Program Files\python27\lib\pickle.py", line 1217in load_build  
  11.     setstate(state)  
  12.   File "_tree.pyx", line 2280in sklearn.tree._tree.Tree.__setstate__ (sklearn\tree\_tree.c:18350)  
  13. ValueError: Did not recognise loaded array layout  

正确使用joblib的方法是:设置dump中的compress参数,当设置参数时,模型持久化便会压缩成一个文件。源码中对compress参数的描述如下:

[python]  view plain  copy
  1. compress: integer for 0 to 9, optional  
  2.         Optional compression level for the data. 0 is no compression.  
  3.         Higher means more compression, but also slower read and  
  4.         write times. Using a value of 3 is often a good compromise.  
  5.         See the notes for more details.  

以下是我们进行模型持久化的正确操作语句:
[python]  view plain  copy
  1. #save model  
  2. joblib.dump(clf,'../../data/model/randomforest.pkl',compress=3)  
  3. #load model to clf  
  4. clf = joblib.load('../../data/model/randomforest.pkl')  
;