自然语言处理实战项目7-利用层次聚类方法做文本的排重,从大量的文本中找出相似文本
一、层次聚类算法
层次聚类算法是一种基于距离度量的聚类方法。它的核心思想是对所有的数据点进行两两之间的距离计算,然后将距离最小的两个点合并成一个新的点,直到所有数据点都被合并到同一个簇中。最终,聚类结果映射为一棵层级树状图,我们可以通过树状图来查看不同簇之间的层次关系。
层次聚类算法有两种形式:凝聚型聚类和分裂型聚类。凝聚型聚类从单个数据点开始,逐步合并不同的数据点,直到整个数据集合被合并成一个大的簇。分裂型聚类从一个大的簇开始,将数据点分成两个或多个较小的簇。
层次聚类算法的优点是可以处理任意类型的数据,并且能够构建出清晰明了的层级关系。相比于其他聚类算法,它不需要预先指定簇的数量,并且可以灵活调整参数来控制聚类的粒度。
但层次聚类算法也有一些缺陷