




处理数据是现代大数据时代的一项非常重要的工作,尤其数据的恢复和归类整理技术,更是关键与核心 。
本题目附带一份残缺数据表(见附件 ),表中所提供的数据,是自去年新冠疫情爆发以来 ,直到今年 2月,某平台公布的部分国家(共 19 个国家,国家名已经隐去)的疫情数据 。为了 论文建模的需要 ,其中有些数据已经被特意删除, 数据表的第一行是对应国家大约人口。由于人工输入数据 的客观事实 ,不排除某些国家上报的数据滞后 ,使得平台公布的个别数据 出现异常 ,需要各个队伍完成以下的任务:
A.检查表中是否有异常数据, 有哪些是?如何修改 ?
C.对于国家04、国家07 、国家12 、国家17,对它们的起源数据进行恢复。
D.根据已有数据 ,对所有国家在今年3月6日~12日的疫情做出预测 。
E.对这19个国家进行两种以上形式的分类,并给出分类的依据和结果 。



3.Kaggle:COVID 19 Global Forecasting








COVID 19 Global Forecasting就是这一系列数据科学竞赛中的一个,数据分析师通过对历史数据的分析,给出下一周全球所有国家新冠的疫情发展预测


The White House Office of Science and Technology Policy (OSTP) pulled together a coalition research groups and companies (including Kaggle) to prepare the COVID-19 Open Research Dataset (CORD-19) to attempt to address key open scientific questions on COVID-19. Those questions are drawn from National Academies of Sciences, Engineering, and Medicine’s (NASEM) and the World Health Organization (WHO).

The Challenge

Kaggle is launching a companion COVID-19 forecasting challenges to help answer a subset of the NASEM/WHO questions. While the challenge involves developing quantile estimates intervals for confirmed cases and fatalities between May 12 and June 7 by region, the primary goal isn’t only to produce accurate forecasts. It’s also to identify factors that appear to impact the transmission rate of COVID-19.

You are encouraged to pull in, curate and share data sources that might be helpful. If you find variables that look like they impact the transmission rate, please share your finding in a notebook.

As the data becomes available, we will update the leaderboard with live results based on data made available from the Johns Hopkins University Center for Systems Science and Engineering (JHU CSSE).

We have received support and guidance from health and policy organizations in launching these challenges. We’re hopeful the Kaggle community can make valuable contributions to developing a better understanding of factors that impact the transmission of COVID-19.

Companies and Organizations

There is also a call to action for companies and other organizations: If you have datasets that might be useful, please upload them to Kaggle’s dataset platform and reference them in this forum thread. That will make them accessible to those participating in this challenge and a resource to the wider scientific community.


JHU CSSE for making the data available to the public. The White House OSTP for pulling together the key open questions. The image comes from the Center for Disease Control.












1.The Story of COVID-19 in India EDA and Prediction


2.COVID Global Forecast: SIR model + ML regressions



3.COVID-19 Global Forecast : SEIR + Visualize



4.Covid-19 Forecasting XGBOOST(week-4) 30dace



A.检查表中是否有异常数据, 有哪些是?如何修改 ?

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
from pandas_profiling import ProfileReport
def plot_results(ddata,alp):
    font = FontProperties(fname = "simsun.ttc", size=15)
    for i in range(76):
        plt.subplot(19, 4, i+1)
        ax = ddata.iloc[:,i].plot(figsize = (16*4 ,12*19))
        ax.set_title('第'+str(int(i/4)+1)+'个国家 '+cl[i%4], fontproperties=font)
        ax.set_xlabel('时间', fontproperties=font)
        ax.set_ylabel('人数', fontproperties=font)
        fig = ax.get_figure()
        #fig.savefig(str(i)+'第'+str(int(i/4)+1)+'个国家 '+cl[i%4]+'.png')
    fig.savefig(alp + '.png')
    for i in range(4):
        for j in range(19):
            plt.subplot(5, 4, j+1)
            #print(j * 4 + i)
            ax = ddata.iloc[j * 4 + i,:].plot(figsize = (16*5 ,12*4))
            ax.set_title('第'+str(int(i/4)+1)+'个国家 '+cl[i%4], fontproperties=font)
            ax.set_xlabel('时间', fontproperties=font)
            ax.set_ylabel('人数', fontproperties=font)
            #plt.plot(data.index[err[j*4 + i]],errj[j*4 + i],'r^',markersize=10)
            fig = ax.get_figure()
    for i in range(76):
        ax = ddata.iloc[i].plot(figsize = (16,12))
        ax.set_title('第'+str(int(i/4)+1)+'个国家 '+cl[i%4], fontproperties=font)
        ax.set_xlabel('时间', fontproperties=font)
        ax.set_ylabel('人数', fontproperties=font)
        fig = ax.get_figure()
        fig.savefig(alp+str(i)+'第'+str(int(i/4)+1)+'个国家 '+cl[i%4]+'.png')
data = pd.read_csv('data.csv',index_col = 0)#,header = None)
data.index = pd.to_datetime(data.index)
datanp = np.asarray(data)
cl = ['新增确诊','累计确诊','累计治愈','累计死亡']
report = ProfileReport(data)
Summarize dataset:   0%|          | 0/90 [00:00<?, ?it/s]

/home/anaconda3/lib/python3.8/site-packages/missingno/ UserWarning: FixedFormatter should only be used together with FixedLocator
  ax1.set_xticklabels(ax1.get_xticklabels(), rotation=45, ha='right', fontsize=fontsize)
/home/anaconda3/lib/python3.8/site-packages/pandas_profiling/model/ UserWarning: There was an attempt to generate the bar missing values diagrams, but this failed.
    To hide this warning, disable the calculation
    (using `df.profile_report(missing_diagrams={"bar": False}`)
    If this is problematic for your use case, please report this as an issue:
    (include the error message: 'The number of FixedLocator locations (7), usually from a call to set_ticks, does not match the number of ticklabels (77).')

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]


<Figure size 1152x864 with 0 Axes>
datanp[np.isnan(datanp)] = -1
err = [[] for i in range(76)]
errj = [[] for i in range(76)]
tot = 1
datanpT = datanp.T
flag = -1
for i in range(len(datanpT)-1):
    for j in range(1,len(datanpT[i])):
        if datanpT[i][j] == -1 or datanpT[i+1][j] == -1 or datanpT[i][j] == -1 or datanpT[i+1][j-1] == -1:
        if i % 4 == 0 and datanpT[i+1][j] != datanpT[i][j] + datanpT[i+1][j-1]:
            print(tot,data.index[j].strftime('%Y-%m-%d'),'第'+str(int(i/4)+1)+'个国家',cl[i%4],'附近可能有异常,附近值为:',datanpT[i+1][j],' != ',datanpT[i][j],' + ',datanpT[i+1][j-1],'!新增确诊型错误!!!!!!!!!!')
            tot += 1

        elif i % 4 != 0 and datanpT[i][j] < datanpT[i][j-1]:
            print(tot,data.index[j].strftime('%Y-%m-%d'),'第'+str(int(i/4)+1)+'个国家',cl[i%4],'附近可能有异常,附近值为:',datanpT[i][j-1],' > ',datanpT[i][j],'#累计型数据错误##########')
            tot += 1
1 2021-02-08 第1个国家 累计治愈 附近可能有异常,附近值为: 2440706.0  >  2429273.0 #累计型数据错误##########
2 2020-08-12 第1个国家 累计死亡 附近可能有异常,附近值为: 5873.0  >  3513.0 #累计型数据错误##########
3 2020-09-28 第1个国家 累计死亡 附近可能有异常,附近值为: 7997.0  >  6466.0 #累计型数据错误##########
4 2020-10-30 第2个国家 累计死亡 附近可能有异常,附近值为: 34113.0  >  24478.0 #累计型数据错误##########
5 2020-06-03 第3个国家 累计治愈 附近可能有异常,附近值为: 44946.0  >  21325.0 #累计型数据错误##########
6 2020-06-05 第3个国家 累计治愈 附近可能有异常,附近值为: 21605.0  >  21305.0 #累计型数据错误##########
7 2020-08-30 第3个国家 累计治愈 附近可能有异常,附近值为: 381183.0  >  283584.0 #累计型数据错误##########
8 2020-12-21 第3个国家 累计死亡 附近可能有异常,附近值为: 16154.0  >  15197.0 #累计型数据错误##########
9 2020-10-06 第4个国家 累计治愈 附近可能有异常,附近值为: 625684.0  >  616857.0 #累计型数据错误##########
10 2020-12-21 第4个国家 累计死亡 附近可能有异常,附近值为: 24691.0  >  14907.0 #累计型数据错误##########
11 2021-02-09 第5个国家 累计治愈 附近可能有异常,附近值为: 361813.0  >  262062.0 #累计型数据错误##########
12 2020-07-01 第5个国家 累计死亡 附近可能有异常,附近值为: 7649.0  >  1698.0 #累计型数据错误##########
13 2020-07-28 第6个国家 新增确诊 附近可能有异常,附近值为: 389717.0  !=  13756.0  +  389717.0 !新增确诊型错误!!!!!!!!!!
14 2020-09-16 第6个国家 新增确诊 附近可能有异常,附近值为: 738020.0  !=  4160.0  +  738020.0 !新增确诊型错误!!!!!!!!!!
15 2020-03-25 第6个国家 累计治愈 附近可能有异常,附近值为: 2.0  >  1.0 #累计型数据错误##########
16 2020-06-21 第6个国家 累计治愈 附近可能有异常,附近值为: 143017.0  >  141967.0 #累计型数据错误##########
17 2020-06-25 第6个国家 累计治愈 附近可能有异常,附近值为: 151589.0  >  151225.0 #累计型数据错误##########
18 2021-03-05 第6个国家 累计治愈 附近可能有异常,附近值为: 1250047.0  >  1248642.0 #累计型数据错误##########
19 2020-08-09 第8个国家 新增确诊 附近可能有异常,附近值为: 361442.0  !=  4507.0  +  361442.0 !新增确诊型错误!!!!!!!!!!
20 2021-03-02 第8个国家 累计确诊 附近可能有异常,附近值为: 3204531.0  >  3130184.0 #累计型数据错误##########
21 2020-05-27 第8个国家 累计死亡 附近可能有异常,附近值为: 28752.0  >  27117.0 #累计型数据错误##########
22 2020-06-19 第9个国家 累计确诊 附近可能有异常,附近值为: 238159.0  >  238011.0 #累计型数据错误##########
23 2020-02-25 第9个国家 累计治愈 附近可能有异常,附近值为: 2.0  >  1.0 #累计型数据错误##########
24 2020-06-25 第9个国家 累计治愈 附近可能有异常,附近值为: 186111.0  >  175103.0 #累计型数据错误##########
25 2020-08-31 第9个国家 累计治愈 附近可能有异常,附近值为: 208536.0  >  207653.0 #累计型数据错误##########
26 2020-10-16 第9个国家 累计治愈 附近可能有异常,附近值为: 245964.0  >  2564.0 #累计型数据错误##########
27 2020-11-01 第9个国家 累计治愈 附近可能有异常,附近值为: 289426.0  >  282380.0 #累计型数据错误##########
28 2020-12-29 第9个国家 累计治愈 附近可能有异常,附近值为: 1408686.0  >  142530.0 #累计型数据错误##########
29 2020-06-24 第9个国家 累计死亡 附近可能有异常,附近值为: 34675.0  >  34644.0 #累计型数据错误##########
30 2020-06-25 第9个国家 累计死亡 附近可能有异常,附近值为: 34644.0  >  10130.0 #累计型数据错误##########
31 2020-10-11 第9个国家 累计死亡 附近可能有异常,附近值为: 36410.0  >  36166.0 #累计型数据错误##########
32 2020-10-17 第9个国家 累计死亡 附近可能有异常,附近值为: 43519.0  >  36474.0 #累计型数据错误##########
33 2020-03-31 第10个国家 累计治愈 附近可能有异常,附近值为: 15.0  >  0.0 #累计型数据错误##########
34 2020-06-08 第10个国家 累计治愈 附近可能有异常,附近值为: 11348.0  >  11189.0 #累计型数据错误##########
35 2020-09-25 第10个国家 累计治愈 附近可能有异常,附近值为: 15913.0  >  15813.0 #累计型数据错误##########
36 2021-01-21 第10个国家 累计死亡 附近可能有异常,附近值为: 3810.0  >  2830.0 #累计型数据错误##########
37 2020-04-05 第11个国家 累计治愈 附近可能有异常,附近值为: 636.0  >  633.0 #累计型数据错误##########
38 2020-07-19 第11个国家 累计治愈 附近可能有异常,附近值为: 271239.0  >  254941.0 #累计型数据错误##########
39 2020-08-05 第11个国家 累计治愈 附近可能有异常,附近值为: 357444.0  >  341764.0 #累计型数据错误##########
40 2020-11-11 第11个国家 累计治愈 附近可能有异常,附近值为: 824355.0  >  736197.0 #累计型数据错误##########
41 2020-10-10 第11个国家 累计死亡 附近可能有异常,附近值为: 93096.0  >  83497.0 #累计型数据错误##########
42 2020-12-09 第12个国家 累计确诊 附近可能有异常,附近值为: 432179.0  >  426142.0 #累计型数据错误##########
43 2020-10-03 第12个国家 累计治愈 附近可能有异常,附近值为: 298955.0  >  298593.0 #累计型数据错误##########
44 2021-01-23 第12个国家 累计治愈 附近可能有异常,附近值为: 482771.0  >  467886.0 #累计型数据错误##########
45 2021-03-02 第12个国家 累计治愈 附近可能有异常,附近值为: 645371.0  >  547406.0 #累计型数据错误##########
46 2021-01-23 第12个国家 累计死亡 附近可能有异常,附近值为: 11204.0  >  10190.0 #累计型数据错误##########
47 2020-04-06 第13个国家 累计确诊 附近可能有异常,附近值为: 5389.0  >  4363.0 #累计型数据错误##########
48 2021-01-01 第13个国家 累计治愈 附近可能有异常,附近值为: 3527722.0  >  2553467.0 #累计型数据错误##########
49 2020-11-09 第13个国家 累计死亡 附近可能有异常,附近值为: 38833.0  >  30546.0 #累计型数据错误##########
50 2021-02-19 第13个国家 累计死亡 附近可能有异常,附近值为: 80587.0  >  71048.0 #累计型数据错误##########
51 2020-07-22 第14个国家 累计治愈 附近可能有异常,附近值为: 48466.0  >  46790.0 #累计型数据错误##########
52 2020-07-13 第14个国家 累计死亡 附近可能有异常,附近值为: 3606.0  >  3565.0 #累计型数据错误##########
53 2020-07-29 第15个国家 新增确诊 附近可能有异常,附近值为: 208546.0  !=  386.0  +  207707.0 !新增确诊型错误!!!!!!!!!!
54 2020-06-10 第15个国家 累计确诊 附近可能有异常,附近值为: 186309.0  >  176522.0 #累计型数据错误##########
55 2020-03-20 第15个国家 累计治愈 附近可能有异常,附近值为: 135.0  >  115.0 #累计型数据错误##########
56 2021-01-23 第15个国家 累计治愈 附近可能有异常,附近值为: 1901518.0  >  1816566.0 #累计型数据错误##########
57 2020-07-06 第15个国家 累计死亡 附近可能有异常,附近值为: 9023.0  >  9022.0 #累计型数据错误##########
58 2020-07-26 第15个国家 累计死亡 附近可能有异常,附近值为: 9124.0  >  6124.0 #累计型数据错误##########
59 2020-07-15 第16个国家 新增确诊 附近可能有异常,附近值为: 22880.0  !=  18.0  +  22431.0 !新增确诊型错误!!!!!!!!!!
60 2020-07-28 第16个国家 新增确诊 附近可能有异常,附近值为: 32096.0  !=  1009.0  +  31116.0 !新增确诊型错误!!!!!!!!!!
61 2020-07-29 第16个国家 新增确诊 附近可能有异常,附近值为: 33362.0  !=  11.0  +  32096.0 !新增确诊型错误!!!!!!!!!!
62 2020-04-16 第16个国家 累计确诊 附近可能有异常,附近值为: 8626.0  >  8526.0 #累计型数据错误##########
63 2020-09-17 第16个国家 累计治愈 附近可能有异常,附近值为: 68110.0  >  68109.0 #累计型数据错误##########
64 2020-10-31 第16个国家 累计治愈 附近可能有异常,附近值为: 91184.0  >  89765.0 #累计型数据错误##########
65 2020-09-06 第17个国家 累计确诊 附近可能有异常,附近值为: 118045.0  >  109784.0 #累计型数据错误##########
66 2020-09-07 第17个国家 累计治愈 附近可能有异常,附近值为: 102304.0  >  91242.0 #累计型数据错误##########
67 2020-12-22 第18个国家 累计治愈 附近可能有异常,附近值为: 1374401.0  >  137926.0 #累计型数据错误##########
68 2021-02-25 第18个国家 累计治愈 附近可能有异常,附近值为: 1882568.0  >  1776732.0 #累计型数据错误##########
69 2020-03-31 第18个国家 累计死亡 附近可能有异常,附近值为: 80.0  >  26.0 #累计型数据错误##########
70 2020-10-20 第18个国家 累计死亡 附近可能有异常,附近值为: 27716.0  >  27100.0 #累计型数据错误##########
71 2020-11-24 第19个国家 累计治愈 附近可能有异常,附近值为: 101981.0  >  12103.0 #累计型数据错误##########


C.对于国家04、国家07 、国家12 、国家17,对它们的起源数据进行恢复

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
from fbprophet import Prophet
import seaborn as sns
from sklearn import preprocessing
import time
from datetime import datetime
from scipy import integrate, optimize
import warnings
import xgboost as xgb
from xgboost import plot_importance, plot_tree
from sklearn.model_selection import RandomizedSearchCV, GridSearchCV
from sklearn import linear_model
from sklearn.metrics import mean_squared_error
def plot_results(ddata,alp):
    font = FontProperties(fname = "simsun.ttc", size=15)
    for i in range(76):
        plt.subplot(19, 4, i+1)
        ax = ddata.iloc[:,i].plot(figsize = (16*4 ,12*19))
        ax.set_title('第'+str(int(i/4)+1)+'个国家 '+cl[i%4], fontproperties=font)
        ax.set_xlabel('时间', fontproperties=font)
        ax.set_ylabel('人数', fontproperties=font)
        fig = ax.get_figure()
        #fig.savefig(str(i)+'第'+str(int(i/4)+1)+'个国家 '+cl[i%4]+'.png')
    fig.savefig(alp + '.png')
    for i in range(4):
        for j in range(19):
            plt.subplot(5, 4, j+1)
            #print(j * 4 + i)
            ax = ddata.iloc[j * 4 + i,:].plot(figsize = (16*5 ,12*4))
            ax.set_title('第'+str(int(i/4)+1)+'个国家 '+cl[i%4], fontproperties=font)
            ax.set_xlabel('时间', fontproperties=font)
            ax.set_ylabel('人数', fontproperties=font)
            #plt.plot(data.index[err[j*4 + i]],errj[j*4 + i],'r^',markersize=10)
            fig = ax.get_figure()
    for i in range(76):
        ax = ddata.iloc[i].plot(figsize = (16,12))
        ax.set_title('第'+str(int(i/4)+1)+'个国家 '+cl[i%4], fontproperties=font)
        ax.set_xlabel('时间', fontproperties=font)
        ax.set_ylabel('人数', fontproperties=font)
        fig = ax.get_figure()
        fig.savefig(alp+str(i)+'第'+str(int(i/4)+1)+'个国家 '+cl[i%4]+'.png')
def get_nan_pos(x):
    flag = True
    a = b = 0
    for i in range(len(x)):
        f = np.isnan(x[i])
        if flag and not f:
            a = i
            flag = False
        elif not flag and not f:
            b = i
    return a,b
data = pd.read_csv('datab.csv',index_col = 0)
data.index = pd.to_datetime(data.index)
datanp = np.asarray(data)
datanpT = datanp.T
cl = ['新增确诊','累计确诊','累计治愈','累计死亡']
def fund(x, a, b):
    return x**a + b

def exp(a,b,c):
    popt, pcov = optimize.curve_fit(fund, np.arange(a,b+1), datanpT[c,a:b+1])
    y2 = [fund(i, popt[0],popt[1]) for i in np.arange(a)]
    return y2
def process(x):
    for i in range(1,4):
        col = ( x - 1 ) * 4 + i
        a,b = get_nan_pos(datanpT[col])
        res = exp(a,b,col)
        for j in range(a):
            datanpT[col][j] = 0 if int(res[j]) < 0 else int(res[j])
    col = ( x - 1 ) * 4
    for j in range(a + 1):
        if np.isnan(datanpT[col][j]) and not np.isnan(datanpT[col+1][j]) and not np.isnan(datanpT[col+1][j-1]):
                datanpT[col][j] = datanpT[col+1][j] - datanpT[col+1][j-1]
[2.35488959e+00 2.08163995e+05]
[2.34072715e+00 1.62728660e+05]
[ 1.82234028e+00 -7.76740348e+03]


[1.94416793e+00 8.79005660e+03]
[1.88752533e+00 2.52925313e+03]
[  1.32832738 313.35107076]


[2.16711557e+00 1.62686890e+05]
[2.14909405e+00 1.54557091e+05]
[   1.55969654 1145.01889887]


[2.06556968e+00 4.88594367e+04]
[2.03906768e+00 3.92166091e+04]
[1.56742707e+00 4.75658372e+03]


datapd = pd.DataFrame(datanpT.T,index = data.index)
<Figure size 1152x864 with 0 Axes>
def fund(x, a, b):
    return x**a + b
c = 13
a, b = get_nan_pos(datanpT[c])
popt, pcov = optimize.curve_fit(fund, np.arange(a,b+1), datanpT[c,a:b+1])
y2 = [fund(i, popt[0],popt[1]) for i in np.arange(b+1)]
[2.35488967e+00 2.08163556e+05]


D.根据已有数据 ,对所有国家在今年3月6日~12日的疫情做出预测

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
from fbprophet import Prophet
def plot_results(ddata,alp):
    font = FontProperties(fname = "simsun.ttc", size=15)
    for i in range(76):
        plt.subplot(19, 4, i+1)
        ax = ddata.iloc[:,i].plot(figsize = (16*4 ,12*19))
        ax.set_title('第'+str(int(i/4)+1)+'个国家 '+cl[i%4], fontproperties=font)
        ax.set_xlabel('时间', fontproperties=font)
        ax.set_ylabel('人数', fontproperties=font)
        fig = ax.get_figure()
        #fig.savefig(str(i)+'第'+str(int(i/4)+1)+'个国家 '+cl[i%4]+'.png')
    fig.savefig(alp + '.png')
    for i in range(4):
        for j in range(19):
            plt.subplot(5, 4, j+1)
            #print(j * 4 + i)
            ax = ddata.iloc[j * 4 + i,:].plot(figsize = (16*5 ,12*4))
            ax.set_title('第'+str(int(i/4)+1)+'个国家 '+cl[i%4], fontproperties=font)
            ax.set_xlabel('时间', fontproperties=font)
            ax.set_ylabel('人数', fontproperties=font)
            #plt.plot(data.index[err[j*4 + i]],errj[j*4 + i],'r^',markersize=10)
            fig = ax.get_figure()
    for i in range(76):
        ax = ddata.iloc[i].plot(figsize = (16,12))
        ax.set_title('第'+str(int(i/4)+1)+'个国家 '+cl[i%4], fontproperties=font)
        ax.set_xlabel('时间', fontproperties=font)
        ax.set_ylabel('人数', fontproperties=font)
        fig = ax.get_figure()
        fig.savefig(alp+str(i)+'第'+str(int(i/4)+1)+'个国家 '+cl[i%4]+'.png')
def get_nan_pos(x):
    flag = True
    a = b = 0
    for i in range(len(x)):
        f = np.isnan(x[i])
        if flag and not f:
            a = i
            flag = False
        elif not flag and not f:
            b = i
    return a,b
data = pd.read_csv('datac.csv',index_col = 0)
data.index = pd.to_datetime(data.index)
datanp = np.asarray(data)[:-7]
datanpT = datanp.T
cl = ['新增确诊','累计确诊','累计治愈','累计死亡']
pred = np.zeros((76,7))
for i in range(len(datanpT)):
    if i % 4 != 0:
        a,b = get_nan_pos(datanpT[i])
        test = datanpT[i][a:b+1]
        data2 = pd.DataFrame(columns = ['ds','y'])
        data2['ds'] = data.index[a:b+1]
        data2['y'] = pd.DataFrame(test)
        forecast = prop_forecast['yhat'].tail(7)
        for j in range(7):
            pred[i][j] = int(np.asarray(forecast).tolist()[j])

datanpT = np.hstack((datanpT,pred))
for i in range(len(datanpT)):
    if i % 4 == 0:
        for j in range(len(datanpT[0])):
            if np.isnan(datanpT[i][j]) and not np.isnan(datanpT[i+1][j]) and not np.isnan(datanpT[i+1][j-1]):
                datanpT[i][j] = datanpT[i+1][j] - datanpT[i+1][j-1]
datapd = pd.DataFrame(datanpT.T,index = data.index)
<Figure size 1152x864 with 0 Axes>
i = 1
a,b = get_nan_pos(datanpT[i])
test = datanpT[i][a:b+1]
data2 = pd.DataFrame(columns = ['ds','y'])
data2['ds'] = data.index[a:b+1]
data2['y'] = pd.DataFrame(test)

forecast = prop_forecast['yhat'].tail(7)

for j in range(7):
    pred[i][j] = int(np.asarray(forecast).tolist()[j])
fig1 = prop.plot(prop_forecast)
INFO:fbprophet:Disabling yearly seasonality. Run prophet with yearly_seasonality=True to override this.
INFO:fbprophet:Disabling daily seasonality. Run prophet with daily_seasonality=True to override this.




import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
from fbprophet import Prophet
def plot_results(ddata,alp):
    font = FontProperties(fname = "simsun.ttc", size=15)
    for i in range(76):
        plt.subplot(19, 4, i+1)
        ax = ddata.iloc[:,i].plot(figsize = (16*4 ,12*19))
        ax.set_title('第'+str(int(i/4)+1)+'个国家 '+cl[i%4], fontproperties=font)
        ax.set_xlabel('时间', fontproperties=font)
        ax.set_ylabel('人数', fontproperties=font)
        fig = ax.get_figure()
        #fig.savefig(str(i)+'第'+str(int(i/4)+1)+'个国家 '+cl[i%4]+'.png')
    fig.savefig(alp + '.png')
    for i in range(4):
        for j in range(19):
            plt.subplot(5, 4, j+1)
            #print(j * 4 + i)
            ax = ddata.iloc[j * 4 + i,:].plot(figsize = (16*5 ,12*4))
            ax.set_title('第'+str(int(i/4)+1)+'个国家 '+cl[i%4], fontproperties=font)
            ax.set_xlabel('时间', fontproperties=font)
            ax.set_ylabel('人数', fontproperties=font)
            #plt.plot(data.index[err[j*4 + i]],errj[j*4 + i],'r^',markersize=10)
            fig = ax.get_figure()
    for i in range(76):
        ax = ddata.iloc[i].plot(figsize = (16,12))
        ax.set_title('第'+str(int(i/4)+1)+'个国家 '+cl[i%4], fontproperties=font)
        ax.set_xlabel('时间', fontproperties=font)
        ax.set_ylabel('人数', fontproperties=font)
        fig = ax.get_figure()
        fig.savefig(alp+str(i)+'第'+str(int(i/4)+1)+'个国家 '+cl[i%4]+'.png')
def get_nan_pos(x):
    flag = True
    a = b = 0
    for i in range(len(x)):
        f = np.isnan(x[i])
        if flag and not f:
            a = i
            flag = False
        elif not flag and not f:
            b = i
    return a,b
data = pd.read_csv('datad.csv',index_col = 0)
data.index = pd.to_datetime(data.index)
datanp = np.asarray(data)[:-7]
datanpT = datanp.T
cl = ['新增确诊','累计确诊','累计治愈','累计死亡']
popu = [8434, 8399, 1912, 5931, 3481, 3297, 4385, 4735, 5955, 691, 12893, 22089, 14410, 27352, 8324, 12584, 1764, 4538, 10233]
zb = np.zeros((19,6*4 + 1))
for i in range(19):
    a,b = get_nan_pos(datanpT[i])
    for j in range(4):
        zb[i][j * 6] = (data.iloc[a:b+1,i * 4 + j].max() - data.iloc[a:b+1,i * 4 + j].min())/popu[1]
        zb[i][j * 6 + 1] = data.iloc[a:b+1,i * 4 + j].std()/popu[1]
        zb[i][j * 6 + 2] = data.iloc[a:b+1,i * 4 + j].mean()/popu[1]
        zb[i][j * 6 + 3] = data.iloc[a:b+1,i * 4 + j].skew()
        zb[i][j * 6 + 4] = data.iloc[a:b+1,i * 4 + j].kurt()
        zb[i][j * 6 + 5] = data.iloc[a:b+1,i * 4 + j].autocorr(1)
import numpy as np
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
from scipy.spatial.distance import pdist,squareform
from scipy.cluster.hierarchy import dendrogram, linkage,fcluster
