X = np.array(df.drop([‘label’],axis=1)); #axis=1 表示删除这一列
X = preprocessing.scale(X); #对数据进行规范化处理 示其服从正态分布
上面生成label时 留下%1行没有数据 所有其对应的其他数据可以作为预测时的输入数据
X_lately = X[-forecats_count:];
X = X[:-forecats_count];
df.dropna(inplace=True); # 抛弃那些 label列为空的行 之前已经填充过了 所以现在只有label有空的
y = np.array(df[‘label’]);
四、机器学习
from sklearn.linear_model import LinearRegression
from sklearn import model_selection,svm
将X y 分为训练集和测试集合
X_train,X_test,Y_train,Y_test = model_selection.train_test_split(X,y,test_size=0.2,random_state=1)
训练
lr = LinearRegression();
lr.fit(X_train,Y_train);# 训练
accuracy = lr.score(X_test,Y_test);# 用测试数据评估准确性
print(“输出评估值”,accuracy);
进行预测
forecats_set = lr.predict(X_lately);
print(“预测值”,forecat