我编写了一个Python代码,用于从NLTK库中训练Brill Tagger大约8000个英语句子并标记大约2000个句子.
Brill Tagger需要花费很多时间来训练,最后当它完成训练时,程序的最后一个语句有一些微小的语法错误,因此代码没有返回输出.
是否可以将标记器保持在训练状态,同时纠正错误并使程序运行而无需等待几个小时才能对标记器进行相同数据的培训?
解决方法:
是!你有几个选择.我经常使用的一件快速而又脏的东西就是掉到控制台.将其添加到脚本的末尾(训练结束后):
model = train_for_hours_and_hours()
import code
code.interact(local=locals())
这与您运行python3时获得的REPL完全相同,除了所有变量(包括您的训练模型)都可用:
$python3 script.py
[ ... THREE HOURS LATER ... ]
> print(model)
一个更永久的解决方案是序列化您的模型并在培训结束后立即将其保存到文件中.为此,您可以使用pickle:
import pickle
MODEL_FILE = 'model.pickle'
try:
# Try to load the model from disk
with open(MODEL_FILE, 'rb') as f:
model = pickle.load(f)
except FileNotFoundError:
# Train the model if it doesn't exist yet
model = train_for_hours_and_hours()
with open(MODEL_FILE, 'wb') as f:
pickle.dump(f, model)
# now use `model` here
标签:python,nltk,pos-tagger,nltk-trainer
来源: https://codeday.me/bug/20190828/1748827.html