Bootstrap

机器学习 数据增加_机器学习项目实战&&数据预处理

对机器学习的项目理解,学习分析业务如何解决?

af1d0cd683abad5a7723683a18ff91b9.png

数据分析概述

98f8e2ae8f9c336786220aa7f4008f88.png

机器学习,数据分析,数据挖掘的区别和联系

36361d8d9a167c53ca23b945502f2fbe.png

数据分析的应用场景

7e9961adf66a2ee5dee10f768b77c58f.png

预测模型和建模及分析,也可以做股票建模… 个性化推荐

84e85417b3959b1846140bf49c7b40dc.png
c8dcb0cf9d47b2c099cb4b8541230e7d.png

  又例如,线下店的选取如何去敲定位置 ,要考虑因素的是什么,例如买家的位置信息,可以用聚类算法K-means,真实业务对接算法。

机器学习的开发流程

688110b8468bf4495d97bca4f8ddcaa0.png

重点

数据清洗:关键的是选取那些是重要的特征,缺失值(NAN),重复值(过拟合问题),去除噪音… 特征工程:独热编码,特征缩放…

6dd9139d1394622ec8db58ab78e38ff7.png

这个流程可能是大半年的上线部署过程!!!

f2f6e203725f24b2d20df86ccfd44596.png

Flume:流的形式;Kafka:消息队列;

8426608eccfca147b05db1e5544c6e24.png
4ffac981c6923b3f5b8acaa88067450f.png

对于房屋面积,数值明显很大,如何x1w1+x2w2+b,明显x1不做处理x1=2104和x2=3,这x2就没意义了(太小)啦兄弟。就要做特征缩放咯啦!! 还得说说啥玩意是正则化: 正则化的概念及原因 简单来说,正则化是一种为了减小测试误差的行为(有时候会增加训练误差)。我们在构造机器学习模型时,最终目的是让模型在面对新数据的时候,可以有很好的表现。当你用比较复杂的模型比如神经网络,去拟合数据时,很容易出现过拟合现象(训练集表现很好,测试集表现较差),这会导致模型的泛化能力下降,这时候,我们就需要使用正则化,降低模型的复杂度。

4c5cd737df81a5e5204ccc729c9e5ad2.png

标准化后是类似标准正态分布的咯!标准化比归一化更加常用,可能因为归一化后数据会为0(0*权重就不太好了).

eb8d3b333f019216644ad49f1271ca29.png

方法四的性别问题就是升维的过程!

c052379f1f5c8e0329766f4acafaff36.png

带权学习比较好,但是不是每一个算法都支持这个带权学习! 看看朴素贝叶斯的算法中 有这东西的讲解,可以去我博客中找找哦!祝你好运!

05a3b4509eff2254f40b56ba3e0530ce.png

接下一篇文章002

;