t-SNE维度地图绘制笔记

张

张建站

2026/4/25 4:35:01

10分钟阅读

文章目录示例1(一维)示例2(三维)为什么要降维如果1000维直接操作会怎样?标准定义t-SNE 是一种基于概率的流形学习技术。它通过在高维空间和低维空间中分别构建样本点的概率分布并利用梯度下降法最小化两个分布之间的 KL 散度Kullback-Leibler Divergence从而在低维空间中保留数据的局部结构特征。一句话t-SNE 是目前机器学习领域最强的高维数据可视化工具它能将复杂的数据“压扁”成一张清晰的散点图让你一眼看出数据是如何分类和聚类的。作用流程大概为1、关注“邻里关系”(1)t-SNE 并不关心所有数据点之间的绝对距离它只关心“谁是邻居”。(2)在高维空间中如果点 A 和点 B 离得很近是邻居t-SNE 会认为它们非常相似。2、计算“相似度”(1)高维空间使用高斯分布来计算两点之间的相似度概率。(2)低维空间使用t-分布自由度为1来计算两点之间的相似度概率。为什么要用 t-分布这是一个巧妙的数学技巧。t-分布具有“长尾”特性能把高维空间中原本距离较远的点在低维空间中推得更远从而解决了“拥挤问题”让聚类结果分得更开。3、保持一致性算法的目标是让低维空间中的邻居关系尽可能与高维空间中的邻居关系一致。如果高维中 A 和 B 是好朋友但在低维图中离得很远算法就会受到“惩罚”Loss变大并不断调整位置直到两者关系匹配为止。示例1(一维)创建tsne_demo.py代码importmatplotlib.pyplotaspltfromsklearnimportdatasetsfromsklearn.manifoldimportTSNE# # 1. 加载数据 (无需联网)# print(正在加载本地手写数字数据集...)# 使用 sklearn 内置的 digits 数据集 (1797个样本, 8x8像素)digitsdatasets.load_digits()Xdigits.data ydigits.targetprint(f数据加载完成样本数量:{X.shape[0]}, 特征维度:{X.shape[1]})# # 2. t-SNE 降维# print(正在进行 t-SNE 降维 (通常只需几秒)...)# n_components2: 降到2维以便绘图# perplexity30: 困惑度控制邻域大小# initpca: 使用PCA初始化通常比随机初始化收敛更快、效果更好tsneTSNE(n_components2,perplexity30,random_state42,initpca)# fit_transform 执行降维操作X_tsnetsne.fit_transform(X)print(降维完成正在绘图...)# # 3. 可视化结果# plt.figure(figsize(10,8))# 绘制散点图# cy: 根据标签 y 的值自动分配颜色# cmaptab10: 使用包含10种颜色的色板 (对应数字0-9)scatterplt.scatter(X_tsne[:,0],X_tsne[:,1],cy,cmaptab10,s15,alpha0.6)plt.title(t-SNE Visualization of Sklearn Digits Dataset,fontsize14)plt.xlabel(Dimension 1)plt.ylabel(Dimension 2)# 添加图例显示每个颜色代表的数字plt.legend(*scatter.legend_elements(),titleDigits,locupper left)plt.colorbar(scatter,ticksrange(10))plt.tight_layout()plt.show()print(绘图完成请查看弹出的图表窗口。)运行结果如图示例2(三维)创建tsne_demo_3d.py代码importmatplotlib.pyplotaspltfrommpl_toolkits.mplot3dimportAxes3D# 必须导入这个包才能画3D图fromsklearnimportdatasetsfromsklearn.manifoldimportTSNE# # 1. 加载数据# print(正在加载数据...)digitsdatasets.load_digits()Xdigits.data ydigits.target# # 2. t-SNE 降维 (关键修改在这里)# print(正在进行 t-SNE 降维至 3D...)# 将 n_components 改为 3表示我们要得到 X, Y, Z 三个坐标tsneTSNE(n_components3,perplexity30,random_state42,initpca)X_tsnetsne.fit_transform(X)# # 3. 绘制 3D 散点图# figplt.figure(figsize(10,8))# 添加一个 3D 子图axfig.add_subplot(111,projection3d)# 绘制散点# cy: 根据标签上色# cmaptab10: 颜色映射# s20: 点的大小scatterax.scatter(X_tsne[:,0],X_tsne[:,1],X_tsne[:,2],cy,cmaptab10,s20,alpha0.6)ax.set_title(3D t-SNE Visualization of Digits,fontsize14)ax.set_xlabel(Dimension 1 (X))ax.set_ylabel(Dimension 2 (Y))ax.set_zlabel(Dimension 3 (Z))# 注意这里多了一个 Z轴标签# 添加图例plt.legend(*scatter.legend_elements(),titleDigits,locupper left)plt.show()print(绘图完成你可以用鼠标拖拽旋转查看不同角度。)运行结果如图为什么要降维如果1000维直接操作会怎样?1、速度特别慢。因为是两维两维的计算1000维需要很多次两两计算。2、在超高维空间如 1000 维中数据会变得极其稀疏。数学上有一个反直觉的现象在高维空间中任意两点之间的距离都会变得差不多最近邻和最远邻的距离差异微乎其微。后果t-SNE 依赖“距离”来判断相似度。如果所有点的距离都差不多t-SNE 就分不清谁是邻居、谁是路人。视觉效果你会得到一张杂乱无章的散点图要么是一团巨大的“毛球”要么是均匀分布的噪点完全看不出聚类结构。3、噪声干扰严重信噪比低**原因**1000 维的数据通常包含大量冗余信息或噪声比如在图像识别中背景像素可能就是噪声。**后果**t-SNE 会试图去拟合这些噪声。它可能会把一些仅仅是因为随机噪声而凑在一起的点强行聚成一类导致你看到很多虚假的聚类。你以为发现了新大陆其实只是数据的随机波动。

别再只盯着DC-DC了！聊聊AC-AC变换器：从你家调光台灯到工业变频器，它无处不在

藏在调光台灯里的黑科技：AC-AC变换器如何重塑电能形态当你旋转台灯的调光旋钮时，可曾想过指尖触碰的是一个存在了半个多世纪的电力电子奇迹？从客厅的智能灯具到工厂的万吨级轧钢机，AC-AC变换技术正以不同形态悄然改变着交流电的&…...

2026/4/25 4:32:28 阅读更多 →

从BugKu这道题，聊聊PHP开发中那些容易被忽略的‘备份文件’安全坑

PHP开发中备份文件管理的安全陷阱与防御实践在Web开发领域，备份文件的安全管理是一个经常被忽视却可能导致严重后果的问题。许多开发者习惯性地在本地或测试环境中创建各种备份文件，却忽略了这些文件可能被意外上传到生产环境的风险。本文将深入探讨PHP…...

2026/4/25 4:32:24 阅读更多 →

告别龟速！手把手教你将Jetson Xavier NX系统迁移到NVMe固态硬盘（附完整脚本）

极速进化：Jetson Xavier NX系统迁移至NVMe全实战指南第一次在Jetson Xavier NX上运行YOLOv5模型时，那种等待数据加载的煎熬让我记忆犹新。eMMC存储的读写速度成为整个AI推理流程中最明显的瓶颈——模型加载需要近30秒，而数据集预处理更是耗费…...

2026/4/25 4:32:21 阅读更多 →

前端三剑客 vs Vue.js：核心区别解析

好的，这是一个关于前端技术的常见问题。我们来理清 HTML CSS JavaScript（通常称为“前端三剑客”）与 Vue.js（一个流行的 JavaScript 框架）之间的区别：核心概念不同HTML CSS JavaScript： 这是…...

2026/4/20 15:14:20 阅读更多 →

【SAP Basis】从SU01出发：深入解析SAP用户账号管理的核心配置与实战

1. SU01入门：SAP用户管理的核心入口第一次接触SAP Basis管理时，我被满屏的事务码搞得晕头转向。直到导师指着SU01说："这是你未来每天都要打交道的老朋友"，我才意识到用户管理的重要性。SU01就像SAP系统的门禁控制台&am…...

2026/4/23 4:18:42 阅读更多 →

AI代码配额管理实战指南：7大行业真实配额模型+3类超限预警SOP（附2026大会未发布白皮书节选）

第一章：AI代码配额管理的范式跃迁与大会使命 2026奇点智能技术大会(https://ml-summit.org) 传统资源配额模型正面临根本性挑战：当大语言模型驱动的代码生成器每秒产出数百行可执行逻辑，静态CPU/内存阈值已无法表征真实开发意图与语义负载。…...

2026/4/20 13:56:02 阅读更多 →

7-Zip终极指南：免费开源的文件压缩神器如何改变你的文件管理方式

7-Zip终极指南：免费开源的文件压缩神器如何改变你的文件管理方式【免费下载链接】7z 7-Zip Official Chinese Simplified Repository (Homepage and 7z Extra package) 项目地址: https://gitcode.com/gh_mirrors/7z1/7z 你是否曾为电脑空间不足而烦恼&…...

2026/4/23 2:47:31 阅读更多 →