Bootstrap

【机器学习】机器学习Top10算法,教你选择最合适的那一个!一文读懂ML中的解析解与数值解...

在机器学习领域里,不存在一种万能的算法可以完美解决所有问题,尤其是像预测建模的监督学习里。


640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1


比方说,神经网络不见得比决策树好,同样反过来也不成立。


最后的结果是有很多因素在起作用的,比方说数据集的大小以及组成。


所以,针对你要解决的问题,最好是尝试多种不同的算法。并借一个测试集来评估不同算法之间的表现,最后选出一个结果最好的。


当然,你要选适合解决你问题的算法来尝试。


比方说,要打扫房子,你会用真空吸尘器,扫把,拖把;你绝对不会翻出一把铲子来开始挖坑,对吧。


大的原则


不过呢,对于所有预测建模的监督学习算法来说,还是有一些通用的底层原则的。


机器学习算法,指的是要学习一个目标函数,能够尽可能地还原输入和输出之间的关系。


然后根据新的输入值X,来预测出输出值Y。精准地预测结果是机器学习建模的任务。


So,Top10机器学习算法,了解一下。


1. 线性回归 


统计学与机器学习领域里研究最多的算法。


做预测建模,最重要的是准确性(尽可能减小预测值和实际值的误差)。哪怕牺牲可解释性,也要尽可能提高准确性。


为了达到这个目的,我们会从不同领域(包括统计学)参考或照搬算法。


线性回归可用一条线表示输入值X和输出值Y之间的关系,这条线的斜率的值,也叫系数。


640?wx_fmt=jpeg


比方说,y = B0 + B1*x


我们就可以根据X值来预测Y值。机器学习的任务就是找出系数B0和B1。


从数据中建立线性回归的模型有不同的方法,比方说线性代数的最小二乘法、梯度下降优化。


线性回归已经存在了200多年,相关研究已经很多了。用这个算法关键在于要尽可能地移除相似的变量以及清洗数据。


对算法萌新来说,是最简单的算法了。


2 .逻辑回归


这方法来自统计学领域,是一种可以用在二元分类问题上的方法。


逻辑回归,和线性回归相似,都是要找出输入值的系数权重。不同的地方在于,对输出值的预测改成了逻辑函数。


逻辑函数看起来像字母S,输出值的范围是0到1。


把逻辑函数的输出值加一个处理规则,就能得到分类结果,非0即1。


比方说,可以规定输入值小于0.5,那么输出值就是1。


640?wx_fmt=jpeg

△ 逻辑回归


这个算法还可以用来预测数据分布的概率,适用于需要更多数据论证支撑的预测。


和线性回归相似,如果把和输出不相干的因子或者相近的因子剔除掉的话,逻辑回归算法的表现会更好。


对于二元分类问题,逻辑回归是个可快速上手又有效的算法。


3.线性判别分析


逻辑回归算法,只能用于二分问题。


当输出的结果类别超过两类的时候,就要用线性判别分析算法了。


这种算法的可视化结果还比较一目了然,能看出数据在统计学上的特征。这上面的结果都是分别计算得到的,单一的输入值可以是每一类的中位数,也可以是每一类值的跨度。


640?wx_fmt=png

△ 线性判别分析


基于对每种类别计算之后所得到的判别值,取最大值做出预测。


这种方法是假定数据符合高斯分布。所以,最好在预测之前把异常值先踢掉。


对于分类预测问题来说,这种算法既简单又给力。


4. 分类与回归树


预测模型里,决策树也是非常重要的一种算法。


可以用分两叉的树来表示决策树的模型。每一个节点代表一个输入,每个分支代表一个变量(默认变量是数字类型)


640?wx_fmt=png

△ 决策树


决策树的叶节点指的是输出变量。预测的过程会经过决策树的分岔口,直到最后停在了一个叶节点上,对应的就是输出值的分类结果。


决策树很好学,也能很快地得到预测结果。对于大部分问题来说,得到的结果还挺准确,也不要求对数据进行预处理。


5.朴素贝叶斯分类器


这种预测建模的算法强大到超乎想象。


这种模型,可以直接从你的训练集中计算出来两种输出类别的概率。


一个是每种输出种类的概率;另外一个,是根据给定的x值,得到的是有条件的种类概率。


一旦计算之后,概率的模型可以用贝叶斯定理预测新的数据。


当你的数据是实数值,那么按理说应该是符合高斯分布的,也就很容易估算出这个概率。


640?wx_fmt=png

△ 贝叶斯定理


朴素贝叶斯定理之所以名字里有个“朴素”,是因为这种算法假定每个输入的变量都是独立的。


不过,真实的数据不可能满足这个隐藏前提。尽管如此,这个方法对很多复杂的问题还是很管用的。


6.K近邻算法


最近K近邻的模型表示,就是整个训练集。很直截了当,对吧?


对新数据的预测,是搜索整个训练集的值,找到K个最近的例子(literally的邻居)。然后总结K个输出的变量。


这种算法难就难在,怎么定义两个数据的相似度(相距多近算相似)。


如果你的特征(attributes)属于同一个尺度的话,那最简单的方法是用欧几里得距离。这个数值,你可以基于每个输入变量之间的距离来计算得出。


640?wx_fmt=png

△ 最近邻法


最近邻法,需要占用大量的内存空间来放数据,这样在需要预测的时候就可以进行即时运算(或学习)。也可以不断更新训练集,使得预测更加准确。


距离或亲密度这个思路遇到更高维度(大量的输入变量)就行不通了,会影响算法的表现。


这叫做维度的诅咒。


当(数学)空间维度增加时,分析和组织高维空间(通常有成百上千维),因体积指数增加而遇到各种问题场景。


所以最好只保留那些和输出值有关的输入变量。


7.学习矢量量化


最近邻法的缺点是,你需要整个训练集。


而学习矢量量化(后简称LVQ)这个神经网络算法,是自行选择训练样例。


640?wx_fmt=png


LVQ,是一组矢量,也叫码本。一开始,矢量是随机选的,经过几次学习算法迭代之后,慢慢选出最能代表训练集的矢量。


学习完成后,码本就可以用来预测了,就像最近邻法那样。计算新输入样例和码本的距离,可以找出最相近的邻居,也就是最匹配的码本。


如果你重新调整数据尺度,把数据归到同一个范围里,比如说0到1之间,那就可以获得最好的结果。


如果用最近邻法就获得了不错的结果,那么可以再用LVQ优化一下,减轻训练集储存压力。


8.支持向量机(简称SVM)


这可能是机器学习里最受欢迎的算法了。


超平面是一条可以分割输入变量的空间的“线”。


支持向量机的超平面,是能把输入变量空间尽可能理想地按种类切割,要么是0,要么是1。


在二维空间里,你可以把超平面可以分割变量空间的那条“线”。这条线能把所有的输入值完美一分为二。


SVM的学习目标就是要找出这个超平面。


640?wx_fmt=jpeg

△ 支持矢量机


超平面和挨得最近的数据点之间的距离,叫做边缘。


最理想的超平面,是可以无误差地划分训练数据。 也就是说,每一类数据里距离超平面最近的向量与超平面之间的距离达到最大值。


这些点就叫做支持向量,他们定义了超平面。


从实际操作上,最理想的算法是能找到这些把最近矢量与超平面值距离最大化的点。


支持向量可能是最强的拿来就用的分类器了。值得用数据集试试。


9.随机森林


随机森林,属于一种重复抽样算法,是最受欢迎也最强大的算法之一。


在统计学里,bootstrap是个估算值大小很有效的方法。比方说估算平均值。


从数据库中取一些样本,计算平均值,重复几次这样的操作,获得多个平均值。然后平均这几个平均值,希望能得到最接近真实的平均值。


而bagging算法,是每次取多个样本,然后基于这些样本建模。当要预测新数据的时候,之前建的这些模型都做次预测,最后取这些预测值的平均数,尽力接近真实的输出值。


640?wx_fmt=png
随机森林在这个基础上稍微有点变化。


它包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。


如果你的高方差算法取得了不错的结果(比方说决策树),那么用随机森林的话会进一步拿到更好的结果。


10. 提升(Boosting)算法和自适应增强(Adaboost)算法


Boosting的核心是,对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。


所得到的第二个弱分类器会纠正第一个弱分类器的误差。弱分类器的不断叠加,直到预测结果完美为止。


Adaboost算法是首个成功用于二元分类问题的提升算法。


现在有很多提升方法都是基于Adaboost。

640?wx_fmt=jpeg


AdaBoost适用于短的决策树。


在第一个树建立出来之后,不同的样本训练之后的表现可以作参考,用不同的样本训练弱分类器,然后根据错误率给样本一个权重。


很难预测的训练数据应该给更多的权重,反过来,好预测的就少一点权重。


模型按顺序一个一个建,每个训练数据的权重都会受到上一个决策树表现的影响。


当所有的决策树都建好之后,看新数据的预测表现,结果准不准。


因为训练数据对于矫正算法非常重要,所以要确保数据清洗干净了,不要有奇奇怪怪的偏离值。


640?wx_fmt=jpeg


最后的最后


面对海量的机器学习算法,萌新最爱问的是,“我该选什么算法?”


在回答这个问题之前,要先想清楚:

  • 数据的数量、质量、本质;

  • 可供计算的时间;

  • 这个任务的紧急程度;

  • 你用这个数据想做什么。


要知道,即使是老司机,也无法闭着眼睛说哪个算法能拿到最好的结果。还是得动手试。


其实机器学习的算法很多的,以上只是介绍用得比较多的类型,比较适合萌新试试手找找感觉。


原文链接:

https://www.kdnuggets.com/2018/02/tour-top-10-algorithms-machine-learning-newbies.html




一文读懂ML中的解析解与数值解


来源:数据派THU 作者:Jason Brownlee 翻译:王雨桐 校对:丁楠雅


你是否有如下疑问:


  • 什么数据最适合我的问题?


  • 什么算法最适合我的数据?


  • 如何对我的算法进行调参?


本文将为你解释为什么没有一个机器学习专家能对上述问题给出直接答案。事实上,找到合适的数据、算法、参数是应用机器学习的难题,也是你唯一需要努力解决的部分。


解析解与数值解


在数学运算中,有些问题可以通过解析法和数值法解决。


  • 解析解是用一种易于理解的形式描述问题,并计算精确解。


  • 数值解是先猜测解,随后检验此解是否足以解决问题。


平方根是一个能同时用两种方法解决的案例。


但通常我们更偏爱解析法。因为这种方法更快,并且能得到精确的解。尽管如此,有时由于时间和硬件性能的限制,我们必须采用数值法


找到线性回归方程的系数是一个很好的例子。它既可以通过解析法计算,比如使用线性代数;但当我们不能把所有数据都储存在一台电脑里来进行解析计算时,我们也可以运用数值法解决问题,比如通过梯度下降法。所以,当解析解是未知的时候,我们只能借助数值法。


解析解


一旦问题被界定之后,很多问题都有明确的解。我们可以遵循一系列逻辑步骤来计算最终的精确解。例如当给定一个具体的算术问题时(如加法或减法),你知道如何操作。在线性代数中,有一系列的方法可以用来分解矩阵,这取决于矩阵的特性是方阵、矩形阵、包含实数还是虚数等等。


附链接(机器学习中分解矩阵的简介):

https://machinelearningmastery.com/introduction-to-matrix-decompositions-for-machine-learning/


我们可以将其更广泛地拓展到软件工程中,对于那些反复出现的问题,无论具体的应用场景如何,我们可以通过一系列广受好评的设计来解决它们。例如用访问者模式对列表中每一项执行操作。


一些问题在机器学习中已经界定明确并且得到了解析解。例如无论数据集中整数值有多少个,我们都可以用同样的方法很容易地将一个分类变量变为独热编码(one hot encoding)。然而不幸的是,机器学习中我们关心的大部分问题都没有解析解。


附链接(为什么在机器学习中使用独热编码):

https://machinelearningmastery.com/why-one-hot-encode-data-in-machine-learning/


数值解


很多我们感兴趣的问题并没有精确解,或者至少没得到解析解。我们必须要猜测可能的解并测试它们,看看解是否合适。这涉及到构建问题并在一系列候选解中进行试错。从本质上来看,寻找数值解的过程可以看作一个搜索的过程。


这些解有一些有趣的特性:


  • 不合适的解与合适的解是很容易区分的。


  • 我们通常不知道合适的解长什么样,只能在已经测试的候选解中进行对比。


  • 我们的目标往往是找到一个近似的或“足够好”的解而不是唯一的最佳解。


最关键的是最后一点,因为通常情况下,我们尝试用数值解来解决的问题都非常有挑战性(因为我们没有简单的方法来解决它)。这种情况下,任何足够好的解都很实用。此外,需要强调的是一个给定的问题会有多种解,其中的许多解都足以解决问题。但机器学习中我们感兴趣的很多问题都需要数值解。比这更糟的是,随着进度的推进,每个子问题的数值解会影响后续子问题的解空间。


机器学习中的数值解


应用机器学习是个数值性质的学科。一个给定的机器学习模型,其核心是个优化问题,本质上是要寻找一系列有未知参数的项来完成等式。从广义上来讲,每个算法都有不同的“等式”和“项”。


640?wx_fmt=jpeg


等式一般是容易计算的,以便估计给定项的参数。但是对于给定的数据集,我们往往不知道要用什么项多少项才能得到“不错的”甚至是“最佳的”预测。


这就是我们经常要解决的数值优化问题。之所以是个数值问题,是因为我们要用有噪声的、不完整的和易出错的有限观测样本来解决优化问题。模型会尽可能地解释数据并在这些观测的输入和输出之间形成映射。


机器学习中更广泛的经验解


作为机器学习算法的核心,数值优化问题实际上属于一类更广泛的问题。具体的优化问题受很多因素影响,这些因素在很大程度上影响了最终解的“优化程度”,并且都没有解析解。例如:


  • 使用什么数据


  • 使用多少数据


  • 在建模前如何处理数据


  • 使用什么模型或算法


  • 如何给算法调参


  • 如何评估算法效果


客观地讲,以上这些是机器学习中的开放性问题的一部分。它们没有解析解,你必须探索哪些元素的组合能最好地解决你的问题,对各种组合方案进行测试和评估,这个过程相当于一个巨大的搜索问题。在这种情况下,你需要知道其他候选方案的得分,才能知道高分应当是多少。除了试错法,还可以从其他已经得到解的相关问题中借鉴想法,除此以外没有其他客观路径能解决这个问题。


这种凭经验的方法经常被称为“搜索式机器学习”,后文提供的文献中进行了进一步探索。


回答你的疑问


我们回到开头的问题,在一个具体的建模预测问题中,什么样的数据、算法和参数最合适呢。没人能通过看你的数据或问题描述,就告诉你怎样解决它最好,甚至是相对好。经验可以帮助领域内的专家找到着手点,并帮助他们验证早期猜测,但通常情况下早期猜测过于复杂或存在低级错误。


要找的足够好的解,往往需要预测建模。并且作为机器学习从业者,这也是你的职责。这是应用机器学习的艰难工作,也是需要练习的部分。掌握好这个部分可以使你在业内更有竞争力。


拓展阅读


关于本文如果想了解更多,可以参阅以下资源:


  • 基于数据驱动选择机器学习算法

https://machinelearningmastery.com/a-data-driven-approach-to-machine-learning/


  • 将应用机器学习问题归为搜索问题的简介

https://machinelearningmastery.com/applied-machine-learning-as-a-search-problem/


  • 为什么应用机器学习很难?

https://machinelearningmastery.com/applied-machine-learning-is-hard/


  • 解析法和数值法有什么差别?

https://math.stackexchange.com/questions/935405/what-s-the-difference-between-analytical-and-numerical-approaches-to-problems


总结


通过本文的介绍,你应当明白了解析解和数值解之间的区别,以及应用机器学习的经验性质。具体来说如下:


  • 解析解是得到精确解的逻辑过程


  • 数值解是更慢的试错过程并且只能得到估计解。


  • 在对一个具体的预测建模问题选择数据、算法和参数时,应用机器学习的核心思想是寻找一个数值解


原文标题:Analytical vs Numerical Solutions in Machine Learning

原文链接:https://machinelearningmastery.com/analytical-vs-numerical-solutions-in-machine-learning/



译者简介




640?wx_fmt=png

王雨桐,统计学在读,数据科学硕士预备,跑步不停,弹琴不止。梦想把数据可视化当作艺术,目前日常是摸着下巴看机器学习。

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。


640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png



人工智能赛博物理操作系统

AI-CPS OS

人工智能赛博物理操作系统新一代技术+商业操作系统“AI-CPS OS:云计算+大数据+物联网+区块链+人工智能)分支用来的今天,企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中,利用AI-CPS OS形成数字化+智能化力量,实现行业的重新布局、企业的重新构建和自我的焕然新生。


AI-CPS OS的真正价值并不来自构成技术或功能,而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务数据+分析一体化,这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合,没有颠覆现状的意愿,这些将不可能实现。


领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量,领导者必须在行业、企业与个人这三个层面都保持领先地位:

  1. 重新行业布局:你的世界观要怎样改变才算足够?你必须对行业典范进行怎样的反思?

  2. 重新构建企业:你的企业需要做出什么样的变化?你准备如何重新定义你的公司?

  3. 重新打造自己:你需要成为怎样的人?要重塑自己并在数字化+智能化时代保有领先地位,你必须如何去做?

AI-CPS OS是数字化智能化创新平台,设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端,可以帮助企业将创新成果融入自身业务体系,实现各个前沿技术在云端的优势协同。AI-CPS OS形成的字化+智能化力量与行业、企业及个人三个层面的交叉,形成了领导力模式,使数字化融入到领导者所在企业与领导方式的核心位置:

  1. 精细种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切,进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。

  2. 智能:模型随着时间(数据)的变化而变化,整个系统就具备了智能(自学习)的能力。

  3. 高效:企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力,这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。

  4. 不确定性:数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验,其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域:技术、文化、制度。

  5. 边界模糊:数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化,还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长:

  1. 创造虚拟劳动力,承担需要适应性和敏捷性的复杂任务,即“智能自动化”,以区别于传统的自动化解决方案;

  2. 对现有劳动力和实物资产进行有利的补充和提升,提高资本效率

  3. 人工智能的普及,将推动多行业的相关创新,开辟崭新的经济增长空间


给决策制定者和商业领袖的建议:

  1. 超越自动化,开启新创新模式:利用具有自主学习和自我控制能力的动态机器智能,为企业创造新商机;

  2. 迎接新一代信息技术,迎接人工智能:无缝整合人类智慧与机器智能,重新

    评估未来的知识和技能类型;

  3. 制定道德规范:切实为人工智能生态系统制定道德准则,并在智能机器的开

    发过程中确定更加明晰的标准和最佳实践;

  4. 重视再分配效应:对人工智能可能带来的冲击做好准备,制定战略帮助面临

    较高失业风险的人群;

  5. 开发数字化+智能化企业所需新能力:员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说,创造兼具包容性和多样性的文化也非常重要。


子曰:“君子和而不同,小人同而不和。”  《论语·子路》云计算、大数据、物联网、区块链和 人工智能,像君子一般融合,一起体现科技就是生产力。


如果说上一次哥伦布地理大发现,拓展的是人类的物理空间。那么这一次地理大发现,拓展的就是人们的数字空间。在数学空间,建立新的商业文明,从而发现新的创富模式,为人类社会带来新的财富空间。云计算,大数据、物联网和区块链,是进入这个数字空间的船,而人工智能就是那船上的帆,哥伦布之帆!


新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。



产业智能官  AI-CPS


用“人工智能赛博物理操作系统新一代技术+商业操作系统“AI-CPS OS”:云计算+大数据+物联网+区块链+人工智能)在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链


640?wx_fmt=png

640?wx_fmt=png

长按上方二维码关注微信公众号: AI-CPS,更多信息回复:


新技术“云计算”、“大数据”、“物联网”、“区块链”、“人工智能新产业:智能制造”、智能金融”、“智能零售”、“智能驾驶”、智能城市新模式:“财富空间“工业互联网”、“数据科学家”、“赛博物理系统CPS”、“供应链金融”



本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!



版权声明产业智能官(公众号ID:AI-CPS推荐的文章,除非确实无法确认,我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题,烦请原作者联系我们,与您共同协商解决。联系、投稿邮箱:[email protected]





;