使用FCM进行编码解码Python实现代码
文章目录代码整体结构第 1 部分生成二维合成数据固定随机种子means中心位置covs形状sizes点数生成数据裁剪到[0,1]第 2 部分初始化隶属度矩阵为什么要按列归一化?这一步的意义第 3 部分更新聚类中心第 4 部分计算距离每个样本到每个中心的距离为什么要防止除零第 5 部分更新隶属度矩阵为什么先算距离关键部分怎么理解ratio总结第 6 部分FCM 主循环初始化开始迭代为什么看U - U_old第 7 部分解码 / 重构最终结果为什么这就是解码第 8 部分重构误差第 9 部分画图1 原始数据2 重构数据3 聚类中心第 10 部分主程序生成数据设置参数运行FCM重构算误差输出结果画图10 总结代码1 导包2 生成二维合成数据3 初始化隶属度矩阵4 更新聚类中心5 计算距离6 更新隶属度矩阵7 FCM主函数8 解码解粒化9 重构误差10 完整代码代码整体结构1. generate_data() # 生成二维合成数据 2. initialize_membership() # 初始化隶属度矩阵 3. update_centers() # 更新聚类中心 4. compute_distances() # 计算样本到中心的距离 5. update_membership() # 更新隶属度矩阵 6. fcm() # FCM主循环 7. reconstruct_data() # 解码/重构 8. reconstruction_error() # 计算重构误差 9. plot_result() # 画图 10. main # 主程序入口第 1 部分生成二维合成数据固定随机种子means中心位置covs形状sizes点数生成数据裁剪到[0,1]第 2 部分初始化隶属度矩阵为什么要按列归一化?这一步的意义给每个样本随机分配一个“模糊归属”第 3 部分更新聚类中心哪个点对某个簇的隶属度大它对这个簇中心的贡献就更大。所以聚类中心不是简单平均而是加权平均。第 4 部分计算距离每个样本到每个中心的距离为什么要防止除零第 5 部分更新隶属度矩阵为什么先算距离因为 FCM 的思想就是离哪个中心近就更属于哪个中心。所以要先知道每个点离各中心有多远。关键部分怎么理解ratio总结隶属度是根据相对距离算出来的。越近 → 隶属度越大 越远 → 隶属度越小第 6 部分FCM 主循环初始化开始迭代为什么看U - U_old因为 FCM 最终要收敛到一个稳定状态。如果两次隶属度矩阵几乎没变化说明中心也基本稳定了 隶属度也基本稳定了 可以停止迭代第 7 部分解码 / 重构最终结果为什么这就是解码因为编码时一个点被表示成它对各中心的隶属度向量现在解码时又根据隶属度、中心位置把它还原成二维点第 8 部分重构误差第 9 部分画图1 原始数据plt.scatter(X[:,0],X[:,1],markerx,s12,alpha0.45,labelOriginal data)2 重构数据plt.scatter(X_hat[:,0],X_hat[:,1],marker,s18,alpha0.95,labelReconstruction data)3 聚类中心plt.scatter(centers[:,0],centers[:,1],markero,s80,alpha0.9,labelCenters)第 10 部分主程序生成数据Xgenerate_data(seed42)设置参数c8m2.0运行FCMcenters,Ufcm(X,cc,mm,max_iter200,tol1e-5,seed42)重构X_hatreconstruct_data(centers,U,m)算误差Vreconstruction_error(X,X_hat)输出结果print(聚类中心 centers )print(centers)print(\n隶属度矩阵 U 的形状 ,U.shape)print(重构误差 V ,V)画图plot_result(X,X_hat,centers)10 总结这段代码首先构造了一个二维合成数据集然后使用 FCM 算法对数据进行模糊聚类得到聚类中心和隶属度矩阵。这里的隶属度矩阵就是数据的编码结果因为它表示每个样本对各个原型的模糊归属。接着利用聚类中心和隶属度矩阵通过加权平均公式对每个样本进行解码重构得到 reconstruction data最后通过均方误差评价原始数据与重构数据之间的差异并可视化展示结果。代码1 导包importnumpyasnpimportmatplotlib.pyplotasplt2 生成二维合成数据1000 个点 6 组高斯分布 做过归一化defgenerate_data(seed42):np.random.seed(seed)meansnp.array([[0.18,0.82],[0.20,0.55],[0.30,0.62],[0.42,0.40],[0.68,0.34],[0.82,0.18]])covs[[[0.002,-0.001],[-0.001,0.006]],[[0.003,0.000],[0.000,0.005]],[[0.004,-0.002],[-0.002,0.006]],[[0.004,0.000],[0.000,0.003]],[[0.008,-0.004],[-0.004,0.003]],[[0.002,-0.001],[-0.001,0.002]]]sizes[170,170,160,170,180,150]# 总共1000点X_list[]formean,cov,sizeinzip(means,covs,sizes):ptsnp.random.multivariate_normal(mean,cov,size)X_list.append(pts)Xnp.vstack(X_list)Xnp.clip(X,0,1)# 限制在 [0,1]returnX3 初始化隶属度矩阵definitialize_membership(n_samples,c):Unp.random.rand(c,n_samples)UU/np.sum(U,axis0,keepdimsTrue)returnU4 更新聚类中心defupdate_centers(X,U,m):UmU**m centers(Um X)/np.sum(Um,axis1,keepdimsTrue)returncenters5 计算距离defcompute_distances(X,centers):# 返回 shape (c, N)diffX[None,:,:]-centers[:,None,:]distnp.linalg.norm(diff,axis2)distnp.fmax(dist,1e-10)# 防止除零returndist6 更新隶属度矩阵defupdate_membership(X,centers,m):distcompute_distances(X,centers)# (c, N)ccenters.shape[0]nX.shape[0]U_newnp.zeros((c,n))exponent2.0/(m-1.0)foriinrange(c):ratio(dist[i:i1,:]/dist)**exponent U_new[i,:]1.0/np.sum(ratio,axis0)returnU_new7 FCM主函数deffcm(X,c8,m2.0,max_iter200,tol1e-5,seed42):np.random.seed(seed)n_samplesX.shape[0]Uinitialize_membership(n_samples,c)foriterationinrange(max_iter):U_oldU.copy()centersupdate_centers(X,U,m)Uupdate_membership(X,centers,m)diffnp.linalg.norm(U-U_old)print(f第{iteration1}次迭代, 隶属度变化量 {diff:.8f})ifdifftol:print(FCM 收敛)breakcentersupdate_centers(X,U,m)returncenters,U8 解码解粒化defreconstruct_data(centers,U,m):UmU**m numeratorUm.T centers# (N, d)denominatornp.sum(Um,axis0,keepdimsTrue).T# (N, 1)X_hatnumerator/denominatorreturnX_hat9 重构误差defreconstruction_error(X,X_hat):returnnp.mean(np.sum((X-X_hat)**2,axis1))10 完整代码importnumpyasnpimportmatplotlib.pyplotasplt# 1. 生成二维合成数据 defgenerate_data(seed42):np.random.seed(seed)meansnp.array([[0.18,0.82],[0.20,0.55],[0.30,0.62],[0.42,0.40],[0.68,0.34],[0.82,0.18]])covs[[[0.002,-0.001],[-0.001,0.006]],[[0.003,0.000],[0.000,0.005]],[[0.004,-0.002],[-0.002,0.006]],[[0.004,0.000],[0.000,0.003]],[[0.008,-0.004],[-0.004,0.003]],[[0.002,-0.001],[-0.001,0.002]]]sizes[170,170,160,170,180,150]# 总共1000点X_list[]formean,cov,sizeinzip(means,covs,sizes):ptsnp.random.multivariate_normal(mean,cov,size)X_list.append(pts)Xnp.vstack(X_list)Xnp.clip(X,0,1)# 限制在 [0,1]returnX# 2. 初始化隶属度矩阵 definitialize_membership(n_samples,c):Unp.random.rand(c,n_samples)UU/np.sum(U,axis0,keepdimsTrue)returnU# 3. 更新聚类中心 defupdate_centers(X,U,m):UmU**m centers(Um X)/np.sum(Um,axis1,keepdimsTrue)returncenters# 4. 计算距离 defcompute_distances(X,centers):# 返回 shape (c, N)diffX[None,:,:]-centers[:,None,:]distnp.linalg.norm(diff,axis2)distnp.fmax(dist,1e-10)# 防止除零returndist# 5. 更新隶属度矩阵 defupdate_membership(X,centers,m):distcompute_distances(X,centers)# (c, N)ccenters.shape[0]nX.shape[0]U_newnp.zeros((c,n))exponent2.0/(m-1.0)foriinrange(c):ratio(dist[i:i1,:]/dist)**exponent U_new[i,:]1.0/np.sum(ratio,axis0)returnU_new# 6. FCM主函数 deffcm(X,c8,m2.0,max_iter200,tol1e-5,seed42):np.random.seed(seed)n_samplesX.shape[0]Uinitialize_membership(n_samples,c)foriterationinrange(max_iter):U_oldU.copy()centersupdate_centers(X,U,m)Uupdate_membership(X,centers,m)diffnp.linalg.norm(U-U_old)print(f第{iteration1}次迭代, 隶属度变化量 {diff:.8f})ifdifftol:print(FCM 收敛)breakcentersupdate_centers(X,U,m)returncenters,U# 7. 解码 / 重构 defreconstruct_data(centers,U,m):UmU**m numeratorUm.T centers# (N, d)denominatornp.sum(Um,axis0,keepdimsTrue).T# (N, 1)X_hatnumerator/denominatorreturnX_hat# 8. 重构误差 defreconstruction_error(X,X_hat):returnnp.mean(np.sum((X-X_hat)**2,axis1))# 9. 画图 defplot_result(X,X_hat,centers):plt.figure(figsize(7,6))plt.scatter(X[:,0],X[:,1],markerx,s12,alpha0.45,labelOriginal data)plt.scatter(X_hat[:,0],X_hat[:,1],marker,s18,alpha0.95,labelReconstruction data)plt.scatter(centers[:,0],centers[:,1],markero,s80,alpha0.9,labelCenters)plt.xlabel(r$x_1$)plt.ylabel(r$x_2$)plt.xlim(0,1)plt.ylim(0,1)plt.legend()plt.title(FCM Granulation-Degranulation)plt.show()# 10. 主程序 if__name____main__:Xgenerate_data(seed42)# 论文二维图常用参数c8m2.0centers,Ufcm(X,cc,mm,max_iter200,tol1e-5,seed42)X_hatreconstruct_data(centers,U,m)Vreconstruction_error(X,X_hat)print(\n 结果输出 )print(聚类中心 centers )print(centers)print(\n隶属度矩阵 U 的形状 ,U.shape)print(重构误差 V ,V)plot_result(X,X_hat,centers)