|
k 均值聚类是一种无监督学习算法,它采用具有某些特征和与这些特征相关的值的数据集,并将数据点分组到多个集群中。“K”代表您尝试将数据点分类到的簇数。K-means 聚类拥有许多可行的用例,包括文档分类、保险欺诈检测和通话详细记录分析。均值偏移聚类是一种简单、灵活的聚类技术,通过将点移向数据点密度最高的区域(称为模式),将数据点分配到聚类中。在此设置中如何定义集群取决于多种因素,例如距离、密度和分布。它也被称为“模式搜索算法”。均值漂移聚类在图像处理、计算机视觉、客户细分和欺诈检测等领域都有用例。DBSCAN 在数据点密度较低的点将高密度簇彼此分开。Netflix 的电影推荐算法使用类似的聚类方法来确定接下来向您推荐什么。例如,如果你观看了最近的 Netflix 电影“Do Revenge”,该算法会查看其他也观看过“Do Revenge”的用户,并根据这些用户接下来观看的内容推荐电影和节目。DBSCAN 擅长处理数据集中的异常值。DBSCAN 的可行用例包括客户细分、市场研究和数据分析。BIRCH 是一种常用于处理大型数据集的聚类技术。它可以一次扫描整个数据库,并专注于数据库中数据点密度高的空间,并提供精确的数据摘要。实现 BIRCH 的一种常见方法是与其他无法处理大型数据集的聚类方法一起使用。在 BIRCH 生成其摘要后,其他聚类方法将运行摘要并对其进行聚类。因此,BIRCH 的最佳用例是用于普通聚类方法无法有效处理的大型数据集。与泊松回归利用泊松分布的概念非常相似,GMM 将数据集建模为多个高斯分布模型的混合体。高斯分布也称为“正态分布”,因此,可以直观地假设数据集的聚类将沿着高斯分布的线分布。GMM 可用于处理大型数据集,因为它保留了奇异高斯模型的许多优点。GMM 已在语音识别系统、异常检测和股票价格预测中得到应用。
|
|