'''
多变量时间序列预测
'''
import os
os.getcwd()
os.chdir('C:\\Users\\87671\\Desktop\\比特魔方')
from pandas import read_csv
from datetime import datetime
from numpy import concatenate
from matplotlib import pyplot
from pandas import concat
from pandas import DataFrame
from sklearn import preprocessing
from sklearn.metrics import mean_squared_error
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import LSTM
# 把日期转换成指定格式 年月日小时
def parse(x):
return datetime.strptime(x, '%Y %m %d %H')
dataset = read_csv('raw.csv', parse_dates=[['year','month','day','hour']],index_col=0,date_parser=parse)
# parse_dates指定时间转化的列 ,date_parser指定转化的形式,index_col指定某列作为索引,一个中括号在一起表示合并在了一起
dataset.drop('No',axis =1 ,inplace = True)
# 赋予特殊的列名
dataset.columns = ['pollution', 'dew', 'temp', 'press', 'wnd_dir', 'wnd_spd', 'snow', 'rain']
dataset.index.name = 'date'
# 填充NA为0
dataset['pollution'].fillna(0,inplace = True)
# 删除前24行的数据
dataset = dataset[24:]
print(dataset.head(5))
#dataset.to_csv('pollution.csv')
dataset = read_csv("pollution.csv",header = 0,index_col = 0)
# 画图,显示每个变量的5年数据
values = dataset.values # 首先提取数据框里面的values
groups = [0,1,2,3,5,6,7]
i = 1
pyplot.figure()
for group in groups:
pyplot.subplot(len(groups),1,i) # 子图要几行几列,每个图在第几个
pyplot.plot(values[:,group])
pyplot.title(dataset.columns[group],y = 0.5,loc='right')
i += 1
pyplot.show()
'''
明确监督问题:根据前1个小时的天气情况x和y,预测下一个阶段的y
将时间序列数据集转化为监督学习问题
基础知识
1.df['t-1']=df['t'].shift(1) #创建了和t之后一项的序列,同等长度,前面的第一个变成了NA
df['t-1']=df['t