【聚类】K-modes和K-prototypes——适合离散数据的聚类方法

假设一批数据，每一个样本中，有唯一标识（id）、品类（cat e _id）、受众（users, 小孩、老人、中年等）等属性，希望从其中找出一些样本，使得这些样本覆盖的品类、受众等最广。

经过调研，认识到了两个新的聚类方法：K-modes和K-prototypes。下面分别介绍下两个方法。

K-mode s 算法是按照k-m e ans 算法的核心内容进行修改，主要有以下两点：

1.度量方式。样本之间的距离D，属性相同为0，不同为1，并将所有属性结有相加。因此D越大，即他的不相关程度越强（与欧式距离代表的意义是一样的）；

汉明距离：Hamming Distance也能用来计算两个向量的相似度，通过比较向量每一位是否相同，若不同则汉明距离加1，这样得到汉明距离。向量相似度越高，对应的汉明距离越小。如10001001和10110001有3位不同。

from kmodes.kmodes import KModes
 
KM = KModes(n_clusters=i,init='Huang').fit_predict(X)


from kmodes.kprototypes import KPrototypes
 
KP = KPrototypes(n_clusters=self.k, init='Cao').fit_predict(X, categorical=self.dis_col)

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

应用 场景：