别再死记硬背了！用NumPy的np.linalg.norm()搞定机器学习中的距离度量（附代码）

张

张建站

2026/5/8 17:30:57

10分钟阅读

别再死记硬背了！用NumPy的np.linalg.norm()搞定机器学习中的距离度量（附代码）

用NumPy的np.linalg.norm()解锁机器学习中的距离计算艺术在机器学习的世界里距离度量就像一把万能钥匙——从KNN分类到K-Means聚类从SVM决策边界到推荐系统中的相似度计算几乎无处不在。但很多开发者面对各种距离公式时要么死记硬背要么重复造轮子。其实NumPy早已为我们准备了一个优雅的解决方案np.linalg.norm()。这个看似简单的函数却能以惊人的灵活性处理各种范数计算需求。1. 为什么距离度量是机器学习的基石距离度量在机器学习中扮演着核心角色。想象一下KNN算法——它本质上就是通过计算数据点之间的距离来找到最近邻。再比如K-Means聚类每次迭代都在重新计算质心与各点的距离。这些场景都离不开高效的距离计算。传统做法是手动实现距离公式比如欧氏距离def euclidean_distance(a, b): return sum((x - y)**2 for x, y in zip(a, b))**0.5这种方法虽然直观但存在几个问题代码冗长且不易维护性能不如NumPy优化过的底层实现难以扩展到不同范数类型np.linalg.norm()通过统一的API解决了这些问题让我们可以用一行代码完成各种距离计算distance np.linalg.norm(a - b, ord2) # 欧氏距离2. np.linalg.norm()的核心参数解密这个函数的强大之处在于其灵活的参数配置。让我们深入解析几个关键参数2.1 ord参数范数类型的选择器ord参数决定了计算哪种范数常见取值及其对应的距离类型ord值范数类型对应距离适用场景NoneL2范数欧氏距离默认情况适用于大多数连续空间1L1范数曼哈顿距离特征选择、稀疏场景2L2范数欧氏距离正则化、几何距离np.infL∞范数切比雪夫距离异常检测、最大差异2.2 axis参数多维计算的导航仪当处理矩阵或多维数组时axis参数决定了计算方向# 计算矩阵每列的L2范数 col_norms np.linalg.norm(matrix, axis0) # 计算矩阵每行的L1范数 row_norms np.linalg.norm(matrix, ord1, axis1)这在特征标准化等场景特别有用可以一次性计算所有特征的范数。3. 实战用np.linalg.norm()实现常见机器学习算法3.1 KNN分类器中的距离计算KNN的核心就是距离计算。使用np.linalg.norm()可以优雅地实现def knn_predict(X_train, y_train, x_test, k3, ord2): # 计算测试点与所有训练点的距离 distances np.linalg.norm(X_train - x_test, ordord, axis1) # 找出最近的k个邻居 nearest_indices np.argpartition(distances, k)[:k] nearest_labels y_train[nearest_indices] # 返回最常见的类别 return np.bincount(nearest_labels).argmax()通过调整ord参数可以轻松切换不同的距离度量方式。3.2 K-Means聚类中的质心更新在K-Means算法的每次迭代中我们需要计算所有点到质心的距离def assign_clusters(X, centroids, ord2): # 计算每个点到各质心的距离 distances np.array([np.linalg.norm(X - c, ordord, axis1) for c in centroids]) # 返回每个点最近的质心索引 return np.argmin(distances, axis0)提示在文本聚类等高维场景中尝试使用L1范数可能获得更好的效果因为它对异常值更鲁棒。4. 高级技巧与性能优化4.1 批量计算利用广播机制NumPy的广播机制允许我们高效地计算多组向量之间的距离# 计算矩阵A每行与矩阵B每行之间的欧氏距离 def batch_distance(A, B): return np.linalg.norm(A[:, np.newaxis] - B, ord2, axis2)这种方法比循环计算快几个数量级特别适合大规模数据集。4.2 范数选择的标准何时用L1何时用L2选择范数类型不是随意的不同场景有不同考量L1范数曼哈顿距离优势对异常值更鲁棒产生稀疏解适合特征选择计算速度稍快不需要平方和开方L2范数欧氏距离优势保持旋转不变性在连续空间中几何意义明确可微分适合梯度下降在实际项目中我通常会尝试两种范数并比较结果。例如在图像相似度计算中L2往往表现更好而在文档分类中L1可能更合适。4.3 内存优化避免临时数组计算大量距离时内存可能成为瓶颈。我们可以优化计算方式# 不优化的方式创建临时数组 distances np.linalg.norm(A - B, axis1) # 优化的方式使用einsum避免临时数组 diff A - B distances np.sqrt(np.einsum(ij,ij-i, diff, diff))对于超大规模数据还可以考虑分块计算或使用稀疏矩阵。5. 常见陷阱与调试技巧即使是一个简单的距离计算也可能遇到各种问题。以下是一些实际项目中容易踩的坑维度不匹配错误确保相减的数组形状兼容。例如计算向量与矩阵各行距离时记得reshape或使用np.newaxis。# 错误示例 vector np.array([1, 2, 3]) matrix np.random.rand(100, 3) distance np.linalg.norm(matrix - vector) # 会报错 # 正确做法 distance np.linalg.norm(matrix - vector[np.newaxis, :], axis1)整数溢出问题当使用整数数组时平方运算可能导致溢出。最佳实践是预先转换为浮点型# 不安全的方式 a np.array([100000, 200000, 300000], dtypenp.int32) norm np.linalg.norm(a) # 可能溢出 # 安全的方式 a np.array([100000, 200000, 300000], dtypenp.float64) norm np.linalg.norm(a)性能瓶颈诊断如果距离计算成为瓶颈可以使用%timeit魔法命令测试不同实现的性能%timeit np.linalg.norm(a - b, ord2) %timeit np.sqrt(np.sum((a - b)**2))在我的经验中np.linalg.norm()通常是最优选择但在特定情况下手动实现可能有惊喜。

ubuntu环境下qt打包

目录1. x86虚拟机中ubuntu打包1.1 查看虚拟机ubuntu环境1.2 安装 linuxdeployqt1.3 配置qt环境变量1.4 生成可执行文件及执行库1. x86虚拟机中ubuntu打包准备： 使用qt生成 Release 可执行文件； 1.1 查看虚拟机ubuntu环境当前虚拟机环境 ubuntu24.04;…...

2026/5/8 17:29:56 阅读更多 →

小新平板效率翻倍！一文学会开启超级文件远程文件，跨设备管理超省心

作为联想小新平板用户，你是否常被跨设备文件传输、远程访问电脑文件的问题困扰？传统用数据线、微信传输、网盘同步的方式，要么操作繁琐、速度受限，要么文件管理混乱、安全性不足，尤其办公、学习时急需调取远端文件&…...

2026/5/8 17:29:40 阅读更多 →

马斯克22万张GPU全卖给Claude用：5小时限额翻倍，双方合作建太空算力

梦晨发自凹非寺量子位 | 公众号 QbitAI活久见！马斯克和Anthropic联手了，签署算力合作协议大单。马斯克旗下的Colossus 1超算集群全部给Claude用，整整220000张英伟达GPU或者说300兆瓦算力。另一边，马斯克和OpenAI的诉讼还在焦灼受…...

2026/5/8 17:29:25 阅读更多 →

C语言RTOS多核协同失效真相：Cache一致性缺失、内存序乱序、GCC -O2优化陷阱——三重危机诊断工具链实战

更多请点击： https://intelliparadigm.com 第一章：C语言RTOS多核协同失效的系统性认知在嵌入式实时系统中，基于C语言开发的RTOS（如FreeRTOS、Zephyr或RT-Thread）常被移植至ARM Cortex-A/R系列或多核RISC-V SoC平台。…...

2026/5/8 3:27:44 阅读更多 →

Zotero GPT终极指南：用AI轻松读懂学术文献的研究态度与情感倾向

Zotero GPT终极指南：用AI轻松读懂学术文献的研究态度与情感倾向【免费下载链接】zotero-gpt GPT Meet Zotero. 项目地址: https://gitcode.com/gh_mirrors/zo/zotero-gpt 你是否曾被海量学术文献淹没？是否在阅读论文时难以快速把握作者的研究立场…...

2026/5/8 1:39:53 阅读更多 →