Bootstrap

spark ML 与 MLlib 的区别

https://www.zhihu.com/question/35225203

spark.mllib中的算法接口是基于RDDs的;spark.ml中的算法接口是基于DataFrames的。

技术角度上,面向的数据集类型不一样:ML的API是面向Dataset的(Dataframe是Dataset的子集,也就是Dataset[Row]), mllib是面对RDD的。Dataset和RDD有啥不一样呢?Dataset的底端是RDD。Dataset对RDD进行了更深一层的优化,比如说有sql语言类似的黑魔法,Dataset支持静态类型分析所以在compile time就能报错,各种combinators(map,foreach等)性能会更好,等等。



;