图解机器学习-白红宇

图解机器学习

阅读量：5830 次

发布时间：2019-06-18

本文共 4038 字，大约阅读时间需要 13 分钟。

警告：多图杀猫！

每当提到机器学习，大家总是被其中的各种各样的算法和方法搞晕，觉得无从下手。确实，机器学习的各种套路确实不少，但是如果掌握了正确的路径和方法，其实还是有迹可循的，这里我推荐SAS的Li Hui的这篇，讲述了如何选择机器学习的各种方法。

另外，也提供了一幅清晰的路线图给大家选择：

其实机器学习的基本算法都很简单，下面我们就利用二维数据和交互图形来看看机器学习中的一些基本算法以及它们的原理。（另外向致敬，他的深深的影响了我）

所有的代码即演示可以在的这个中找到。

首先，机器学习最大的分支的，简单说数据已经打好标签的是监督学习，而数据没有标签的是无监督学习。从大的分类上看，降维和聚类被划在无监督学习，回归和分类属于监督学习。

无监督学习

如果你的数据都没有标签，你可以选择花钱请人来标注你的数据，或者使用无监督学习的方法。

首先你可以考虑是否要对数据进行降维。

降维

降维顾名思义就是把高维度的数据变成为低维度。常见的降维方法有PCA, LDA, SVD等。

主成分分析 PCA

降维里最经典的方法是主成分分析PCA，也就是找到数据的主要组成成分，抛弃掉不重要的成分。

这里我们先用鼠标随机生成8个数据点，然后绘制出表示主成分的白色直线。这根线就是二维数据降维后的主成分，蓝色的直线是数据点在新的主成分维度上的投影线，也就是垂线。主成分分析的数学意义可以看成是找到这根白色直线，使得投影的蓝色线段的长度的和为最小值(严格地说应该是平方和最小)。

See the Pen by gangtao () on .

更多PCA的相关例子，可以参考：

聚类

因为在非监督学习的环境下，数据没有标签，那么能对数据所做的最好的分析除了降维，就是把具有相同特质的数据归并在一起，也就是聚类。

层级聚类 Hierachical Cluster

该方法用于构建一个拥有层次结构的聚类，

如上图所示，层级聚类的算法非常的简单：

初始时刻，所有点都自己是一个聚类

找到距离最近的两个聚类（刚开始也就是两个点），形成一个聚类

两个聚类的距离指的是聚类中最近的两个点之间的距离

重复第二步，直到所有的点都被聚集到聚类中。

See the Pen by gangtao () on .

KMeans

KMeans中文翻译K均值算法，是最常见的聚类算法。

随机在图中取K（这里K=3）个中心种子点。

然后对图中的所有点求到这K个中心种子点的距离，假如点P离中心点S最近，那么P属于S点的聚类。

接下来，我们要移动中心点到属于他的“聚类”的中心。

然后重复第2）和第3）步，直到，中心点没有移动，那么算法收敛，找到所有的聚类。

KMeans算法有几个问题：

如何决定K值，在上图的例子中，我知道要分三个聚类，所以选择K等于3，然而在实际的应用中，往往并不知道应该分成几个类

由于中心点的初始位置是随机的，有可能并不能正确分类，大家可以在我的Codepen中尝试不同的数据

如下图，如果数据的分布在空间上有特殊性，KMeans算法并不能有效的分类。中间的点被分别归到了橙色和蓝色，其实都应该是蓝色。

See the Pen by gangtao () on .

DBSCAN

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）中文是基于密度的聚类算法。

DBSCAN算法基于一个事实：一个聚类可以由其中的任何核心对象唯一确定。

算法的具体聚类过程如下：扫描整个数据集，找到任意一个核心点，对该核心点进行扩充。扩充的方法是寻找从该核心点出发的所有密度相连的数据点（注意是密度相连）。遍历该核心点的邻域内的所有核心点（因为边界点是无法扩充的），寻找与这些数据点密度相连的点，直到没有可以扩充的数据点为止。最后聚类成的簇的边界节点都是非核心数据点。之后就是重新扫描数据集（不包括之前寻找到的簇中的任何数据点），寻找没有被聚类的核心点，再重复上面的步骤，对该核心点进行扩充直到数据集中没有新的核心点为止。数据集中没有包含在任何簇中的数据点就构成异常点。