1. 从物理视角看神经网络为什么我们需要新的理解框架如果你和我一样在实验室里泡了十几年从早期的多层感知机一路跟到现在的Transformer和扩散模型你可能会有一个强烈的感受我们手里的工具越来越强大但我们对它们“为什么”能工作的理解却似乎总是慢半拍。这感觉有点像上世纪60年代的粒子物理学家面对着一堆新发现的强子知道它们背后肯定有某种统一的规律但就是找不到那个简洁的“夸克模型”。神经网络就是这样一个领域。它在图像生成、蛋白质结构预测、甚至写代码和讲故事上都取得了令人瞠目结舌的成就。但如果你去翻看经典的机器学习教材你会发现它们大多在教你“怎么做”——怎么调参、怎么选优化器、怎么防止过拟合。而对于“为什么”一个由随机权重初始化、经过梯度下降训练的深度网络最终能学会如此复杂的函数我们往往只能给出一些启发式的、基于经验的解释。这正是物理视角可以介入的地方。物理学家最擅长的就是把一个复杂的、看似混乱的系统拆解成几个核心的、可量化的“支柱”来理解。对于神经网络我认为这三个支柱是表达性、统计和动力学。表达性回答“网络能表示什么函数”统计回答“在初始化时网络参数的随机性意味着什么”动力学则回答“训练过程是如何在参数空间中导航最终找到解法的”。今天我就想和你聊聊如何用我们熟悉的场论、统计力学和动力系统的语言来重新审视这三个问题。这不仅仅是理论上的自娱自乐它能实实在在地指导我们设计更好的架构、理解模型的泛化能力甚至预测训练行为。2. 神经网络的表达性从万能逼近到结构创新当我们说一个模型“强大”时第一个要问的就是它的表达性它到底能表示多复杂的函数对于神经网络这个问题有一个漂亮的数学答案通用近似定理。2.1 通用近似定理的物理图像Cybenko在1989年证明的定理用大白话说就是只要有一个隐藏层并且使用非线性的激活函数比如Sigmoid这个神经网络就能以任意精度逼近任何定义在紧集上的连续函数。公式看起来可能有点唬人ϕ(x) Σ_i [ w_i^(1) * σ( Σ_j w_ij^(0) * x_j b_i^(0) ) ] b^(1)但它的物理图像非常直观。你可以把每个隐藏神经元σ( Σ_j w_ij^(0) * x_j b_i^(0) )想象成一个“基函数”。当权重w_ij^(0)的模很大时Sigmoid函数就像一个平滑的阶跃函数。通过调整第一层的权重w_ij^(0)和偏置b_i^(0)你可以控制这个“阶跃”发生的位置和方向。然后第二层的权重w_i^(1)就像一组“系数”用来缩放和组合这些基函数。注意这里的“以任意精度逼近”是有条件的。定理只保证了存在性——在参数空间的某个地方存在一组参数使得网络无限接近目标函数。但它没告诉我们这组参数具体在哪也没告诉我们需要多少个神经元宽度N才能达到给定的精度ϵ。这就像告诉你在一片广袤的沙漠里肯定埋着宝藏但没给你地图。找到宝藏即通过训练找到那组参数是另一个问题属于“动力学”的范畴。在实际操作中我们很少用单层网络。深度网络MLP通过多个这样的“仿射变换非线性激活”的复合获得了更强大的表达能力。你可以把它理解成一种分层特征提取第一层学习一些简单的边缘或纹理后面每一层都在前一层的基础上组合出更复杂、更抽象的特征。这种复合结构让深度网络能用比浅层网络少得多的参数来表达同样复杂的函数这是其成功的关键之一。2.2 超越MLPKolmogorov-Arnold网络的启示通用近似定理为MLP提供了理论背书但数学上还有其他函数表示定理。其中一个重量级的是Kolmogorov-Arnold表示定理。它说任何多元连续函数f(x1, ..., xn)都可以精确地而不仅仅是近似表示为有限个一元连续函数的和f(x1, ..., xn) Σ_q Φ_q ( Σ_p ϕ_{q,p}(x_p) )这个公式看起来和MLP有点像但有个关键的不同函数ϕ_{q,p}依赖于两个索引q和p。如果我们把它画成网络图ϕ_{q,p}像是坐在连接输入x_p和中间节点Σ_p ϕ_{q,p}(x_p)的边上而不是像MLP那样非线性激活函数坐在节点上。这个观察催生了2023年引起广泛关注的Kolmogorov-Arnold网络。在KAN中可学习的非线性函数被放在了边上而节点只执行简单的求和操作。这与MLP形成了鲜明对比特性多层感知机Kolmogorov-Arnold网络灵感来源通用近似定理Kolmogorov-Arnold表示定理核心结构MLP(x) (W3 ∘ σ2 ∘ W2 ∘ σ1 ∘ W1)(x)KAN(x) (Φ3 ∘ Φ2 ∘ Φ1)(x)可学习部分权重矩阵W(线性)边上的激活函数Φ(非线性)固定部分节点上的激活函数σ(非线性)节点上的求和操作 (线性)直观理解学习如何线性组合固定的非线性特征直接学习构成复杂函数的基本“元函数”我个人的实验体会是KAN在某些科学计算任务上比如拟合已知的数学表达式确实能学到更可解释的结构。因为它的激活函数是可学习的训练后你甚至可以直接可视化这些函数有时能发现它们接近正弦、指数等基础函数。这为“可解释AI”提供了一个有趣的新方向。当然KAN在传统的大规模图像或自然语言任务上目前还无法撼动基于矩阵乘法的MLP或Transformer的地位其计算效率是主要瓶颈。3. 神经网络的统计当无限宽网络遇见场论理解了网络能表达什么我们接下来看另一个根本问题在训练开始前随机初始化产生的网络是什么样的这引出了神经网络的统计视角。3.1 NNGP对应中心极限定理在函数空间的体现考虑一个最简单的单层全连接网络ϕ(x) (1/√N) * Σ_i [ w_i * σ( Σ_j v_ij * x_j ) ]。我们假设所有权重w_i和v_ij都是从某个分布中独立同分布地采样。现在固定一个输入x网络的输出ϕ(x)是什么它是N个随机变量每个神经元贡献一项的和。这立刻让我们联想到中心极限定理。当网络宽度N趋于无穷大时对于任意一组固定的输入点{x1, x2, ..., xk}其输出(ϕ(x1), ϕ(x2), ..., ϕ(xk))的联合分布会收敛到一个多元高斯分布。这意味着无限宽神经网络是一个高斯过程。这个由Radford Neal在1990年代指出的对应关系是理解神经网络统计特性的基石。一个高斯过程完全由其均值函数μ(x) ⟨ϕ(x)⟩和协方差函数或称核函数K(x, y) ⟨ϕ(x)ϕ(y)⟩决定。这里的期望⟨·⟩是对初始化参数分布取的。计算这个核函数很有趣。以上述单层网络为例假设w_i均值为0方差为σ_w^2并且与v_ij独立。那么两点关联函数为G^(2)(x, y) ⟨ϕ(x)ϕ(y)⟩ σ_w^2 * ⟨ σ(v·x) * σ(v·y) ⟩_v这里的期望只对v取了。这个积分的结果取决于激活函数σ和输入x, y的内积。对于某些激活函数如ReLU这个积分有解析解得到的核函数就是著名的“ReLU核”或“Arccos核”。实操心得这个NNGP视角非常实用。在训练超宽网络时其行为在初始化阶段就近似由一个高斯过程描述。你可以直接用这个高斯过程的核函数来做预测这就是“神经切线核”理论的基础之一而无需训练网络。这为快速评估架构潜力、进行不确定性估计提供了一个理论工具。我在尝试新架构时经常会先计算或估计其对应的NNGP核看看它在简单任务上的先验行为是否符合预期。3.2 有限宽与非高斯性相互作用的起源无限宽是美好的理论极限但现实中的网络都是有限宽的。有限N会带来什么它破坏了中心极限定理成立的条件无穷多个独立同分布项从而引入了非高斯性。在场论的语言里高斯过程对应着自由场论其作用量是二次的S[ϕ] ∝ ∫∫ ϕ(x) K^{-1}(x,y) ϕ(y) dx dy。所有的关联函数都可以由两点函数通过Wick定理给出。而非高斯性则对应着相互作用场论作用量中包含ϕ^4,ϕ^6等高阶项。如何计算这些“相互作用”让我们看一个具体的例子计算四点关联函数的连通部分G_c^(4)(x,y,z,w)。它衡量了输出之间超出两两关联的“高阶相关性”。对于ϕ(x) Σ_i w_i φ_i(x)这种形式的网络经过仔细的指标运算这里省略冗长的推导你会发现G_c^(4)正比于1/N并且与⟨w^4⟩ - 3⟨w^2⟩^2即权重的四阶累积量有关。关键洞察1/N因子这意味着非高斯性即相互作用强度随着网络宽度N增大而衰减。无限宽时网络是纯粹的高斯过程自由场有限宽时它是一个弱相互作用的场论相互作用的强度由1/N控制。这为“宽度”这个超参数提供了一个清晰的统计物理解释宽度越大网络在初始化时越“简单”更接近高斯其统计涨落越小。3.3 对称性从单个网络到网络系综物理学家热爱对称性。在神经网络中我们通常讨论的是等变性如果对输入做一个变换比如旋转一张图片网络的输出会以一种可预测的方式相应变换比如同样旋转了特征图。这对于构建处理图像、图结构等数据的网络至关重要。但在统计视角下我们关心的是整个网络系综的对称性。也就是说不是单个网络ϕ(x)在某个变换下如何变化而是这个变换是否保持参数的概率分布P(θ)不变。如果不变那么我们说这个网络系综具有一个全局对称性。举个例子考虑一个网络ϕ(x) Σ_i w_i φ_i(x)其中w_i的分布是关于0对称的比如均值为0的高斯分布。那么对整个网络输出做变换ϕ - -ϕ等价于对所有权重做变换w_i - -w_i。由于w_i的分布是对称的这个变换下系综的统计性质完全不变。这意味着这个网络系综具有一个Z_2对称性其所有奇数点关联函数如⟨ϕ(x)⟩都为0。更有趣的是构建具有时空对称性的网络。比如我们希望网络系综对输入空间的旋转和平移即欧几里得群不变。这可以通过精心设计第一层来实现。例如采用这样的输入层ℓ_i(x) F(w_i) * cos( w_ij · x_j b_i )其中偏置b_i均匀分布在[-π, π]权重w_ij的分布是球对称的。可以证明对x的任何旋转或平移都可以被吸收到对参数w_ij或b_i的重定义中而由于参数分布在这些重定义下不变整个系综也就具有了欧几里得对称性。基于此构建的“Cos-net”或“Scalar-net”其关联函数也展现出相应的不变性。注意事项这里有一个微妙的点。一个单个的神经网络实例其参数是固定的通常不具备这种连续的对称性除非你刻意设计成等变网络。但当我们考虑由随机初始化产生的所有可能网络的系综时如果参数分布具有某种对称性那么系综的统计平均性质就会体现出相应的对称性。这提醒我们在分析网络性质时区分“典型实例”和“系综平均”非常重要。4. 神经网络的动力学损失景观上的梯度流统计视角描述了网络的“初始状态”而动力学视角则要描述它如何通过训练演化到“最终状态”。这通常被表述为在参数空间θ中沿着损失函数L(θ)的负梯度方向下降的过程dθ/dt -η ∇_θ L。但这只是一个高度简化的图像。4.1 从参数空间到函数空间神经切线核梯度下降是在θ空间进行的。但我们对网络在输入x上的预测f(x; θ)更感兴趣。那么预测函数f本身是如何演化的呢利用链式法则df(x; θ)/dt (∂f(x; θ)/∂θ) · (dθ/dt) -η (∂f(x; θ)/∂θ) · ∇_θ L而∇_θ L Σ_α (∂L/∂f(x_α)) · (∂f(x_α)/∂θ)其中求和遍及所有训练数据点x_α。把这两步结合起来我们得到函数f在训练数据点上的演化方程df(x_i)/dt -η Σ_j Θ(x_i, x_j; θ) · (∂L/∂f(x_j))其中Θ(x_i, x_j; θ) (∂f(x_i)/∂θ) · (∂f(x_j)/∂θ)这个量被称为神经切线核。NTK的神奇之处在于在无限宽极限下这个核Θ在训练过程中保持不变收敛到一个确定的核Θ∞。这意味着无限宽网络的训练动力学被大大简化了它等价于在再生核希尔伯特空间中用核Θ∞进行梯度流。在这种情况下网络的训练过程是线性的、可解析求解的并且其泛化性能可以由Θ∞的特征谱决定。4.2 有限宽动力学特征学习与偏离NTKNTK理论很美但它描述的是一个“懒惰训练”区网络参数θ相对其初始值θ0的变化很小因此函数f的变化可以近似为其对θ的一阶泰勒展开。在这种情况下网络本质上是在利用其初始随机特征的一个线性组合来拟合数据并没有真正“学习”新的特征。然而现实中的神经网络尤其是宽度不那么巨大的网络其成功很大程度上依赖于特征学习——即网络内部表示θ发生了显著变化从而提取出对任务更有效的特征。这对应着NTK理论失效的“特征学习区”。如何理解特征学习一个物理类比是相变。把损失函数L(θ)想象成一个复杂的高维能量景观。梯度下降就像在这个景观上放一个小球让它滚到最低点。在NTK区景观相对简单小球只在初始点附近的一个小山谷里滚动。而在特征学习区小球可能会跨越多个山脊和山谷最终落入一个完全不同的、更深的盆地。这个跨越过程可以类比为一级相变中的亚稳态到稳态的跃迁。从场论的角度看有限宽引入的1/N相互作用项不仅影响了初始统计也影响了动力学。这些相互作用项使得网络在训练过程中其NTKΘ(θ)不再是常数而是随着θ变化。这导致了动力学的非线性并使得“函数空间”和“参数空间”的演化耦合在一起。理解这种耦合是当前理论机器学习的一个前沿课题。4.3 动力学的对称性与不变性动力学过程也可能保持或打破某些对称性。考虑一个具有欧几里得对称性的网络系综如前面提到的Cos-net。如果我们用一组同样具有平移和旋转对称性的训练数据比如从自然图像中随机裁剪的块来训练它并且使用一个对称的损失函数如均方误差那么整个训练动力学可能会保持这种对称性。这意味着训练后的网络系综其平均预测函数⟨f(x)⟩也将是平移和旋转不变的。然而如果训练数据破坏了这种对称性比如所有图片中猫都出现在右侧那么优化过程会驱使网络打破对称性以更好地拟合数据。动力学中的对称性破缺可以帮助我们理解网络如何从数据中学习到有偏的、任务相关的特征。5. 三支柱的统一与应用实例表达性、统计、动力学不是孤立的它们相互交织共同决定了神经网络的行为。让我们通过一个具体的例子——设计一个用于物理模拟的神经网络——来看看如何综合运用这些理念。5.1 案例构建用于求解PDE的对称性网络假设我们要用神经网络来求解一个已知的偏微分方程比如泊松方程∇² ϕ(x) ρ(x)。我们的目标是学习一个映射从源项ρ(x)到势场ϕ(x)。表达性考量我们知道解算子是线性的但解本身可以是复杂函数。一个深度MLP或KAN理论上都具备足够的表达能力。考虑到物理场通常光滑选择平滑的激活函数如Swish、GELU可能比ReLU更合适。统计与对称性考量泊松方程在平移和旋转下是不变的假设边界条件允许。因此我们希望我们网络系综的先验即初始化分布也包含这种对称性这会给学习提供一个有益的归纳偏置。我们可以采用前面提到的“欧几里得网络”结构作为第一层确保初始化时网络系综具有平移和旋转不变性。具体操作输入是坐标x。第一层使用ℓ_i(x) cos( w_i · x b_i )其中w_i从各向同性的高斯分布中采样b_i从[-π, π]均匀采样。后续层可以采用标准的全连接层。这样在初始化时对于任何固定的x输出ϕ(x)的分布是相同的对于任何一对(x, y)两点关联函数⟨ϕ(x)ϕ(y)⟩只依赖于|x-y|。动力学考量我们将损失函数定义为PDE的残差平方和L Σ || ∇² ϕ_θ(x) - ρ(x) ||²。由于网络结构和初始化具有对称性且损失函数也是对称的训练动力学很可能尽管不保证会保持这种对称性。NTK理论如果宽度足够大可以让我们预估训练的速度和难度。例如我们可以计算初始化NTK的特征值分布如果小特征值很多意味着有些方向学习起来会很慢。实操心得与避坑指南对称性的实现通过参数分布的对称性来保证系综对称性比在每次前向传播中强行施加对称性约束如数据增强更“本质”计算开销也常更小。但它依赖于无限次随机初始化的平均。在单次训练中网络仍可能学到轻微不对称的解这是有限样本涨落。宽度与NTK如果你希望训练行为更稳定、更可预测倾向于使用更宽的网络使其更接近NTK区域。如果你希望网络进行更深刻的特征学习可能需要一个宽度适中甚至较窄的网络并配合更强的正则化如权重衰减来引导优化路径。关联函数的计算对于复杂的网络两点关联函数G^(2)(x,y)的解析计算可能很困难。这时蒙特卡洛估计是你的好朋友。简单地从参数分布P(θ)中采样几百个网络计算每个网络在x和y的输出然后取平均和协方差就能得到G^(2)(x,y)的可靠估计。这比解析推导更快也更适用于检验自定义的网络结构。5.2 从自由场到相互作用场ϕ^4理论网络示例为了更深入地体会统计场论与神经网络的联系我们可以尝试构建一个其关联函数对应著名ϕ^4场论的网络系综。ϕ^4理论的作用量是S[ϕ] ∫ [ (∇ϕ)²/2 m²ϕ²/2 λϕ⁴/4! ] dx。我们已经有了“Scalar-net”作为自由标量场λ0的实现。如何引入ϕ^4相互作用思路是打破中心极限定理的“独立性”假设。一个方法是让权重之间不再独立。例如构造一个两层的网络ϕ(x) Σ_i u_i * σ( Σ_j w_ij * x_j b_i )但让第二层的权重u_i不是独立的而是以某种方式依赖于第一层的权重w_i和b_i使得在计算⟨ϕ(x)ϕ(y)ϕ(z)ϕ(w)⟩时出现无法因子化的项从而产生连通的四点函数。具体地我们可以令u_i g( w_i, b_i )其中g是一个非线性的、偶的函数以保持Z_2对称性ϕ - -ϕ。通过精心设计g的函数形式和参数分布可以让计算出的G_c^(4)在动量空间具有ϕ^4理论顶点的形式。这相当于在参数分布P(θ)中引入了权重之间的高阶相关性从而在函数空间诱导出了相互作用。这项工作更像是理论物理的“玩具模型”但它清晰地展示了原理神经网络系综的统计性质完全由其参数的概率分布P(θ)决定。通过设计P(θ)我们可以让网络系综模拟各种各样的统计场论。这为用神经网络作为研究复杂统计系统如自旋玻璃、临界现象的工具打开了新的大门。6. 常见问题与理论实践中的挑战将物理视角应用于实际的神经网络研究与开发时会遇到一些典型的疑问和挑战。6.1 理论无限宽 vs. 实际有限宽几乎所有优美的解析结果NNGP NTK都依赖于“无限宽”这个假设。但现实中我们训练的都是有限宽网络。这个差距有多大统计差距有限宽网络的输出分布不是严格高斯的存在1/N修正的“相互作用”。对于非常宽的网络如宽度1000以上高斯近似通常很好。对于较窄的网络如宽度几十非高斯性可能显著表现为输出分布有更重的尾巴或偏斜。动力学差距NTK在训练中不变的假设在有限宽下不成立。网络越窄其特征学习能力越强NTK变化越大。一个经验法则是当网络宽度远大于训练数据集大小时NTK近似往往较好。如何选择没有定论。如果你的目标是可解释性、理论分析和稳定的训练倾向于更宽的网络。如果你的目标是最大化从数据中学习复杂特征的能力并且计算资源有限宽度适中的网络可能更有效。这本质上是在“懒惰的线性模型”和“灵活的特征学习器”之间做权衡。6.2 对称性先验何时有用何时是束缚将对称性构建到网络架构或初始化中是一种强大的归纳偏置。何时有用当你的任务本身具有明确的对称性时如物理定律、分子结构、图像分类中的平移不变性。这能大幅减少假设空间降低样本复杂度提升泛化能力。例如在Cos-net的例子中平移不变性直接编码在了网络的第一层。何时是束缚当数据或任务违反该对称性时。例如如果人脸识别数据集中所有人脸都偏向一侧强行施加完全的旋转对称性可能会损害性能。此时更合适的做法是使用数据增强来近似对称性而不是将其硬编码到架构中。数据增强告诉网络“这些变换下的数据是等价的”但允许网络在必要时学习到数据中实际存在的不对称性。6.3 计算关联函数与NTK的实际困难理论上我们可以写出关联函数或NTK的表达式。但实际上对于深度网络这些表达式涉及高维积分和复杂的函数组合几乎不可能得到闭式解。蒙特卡洛方法如前所述这是最直接、最通用的方法。通过从初始化分布中采样大量网络计算其输出再进行统计平均。虽然计算量大但易于并行且适用于任何架构。随机特征近似对于某些激活函数可以将神经网络在初始化时近似为一个随机特征模型。此时NTK可以近似为一个确定的核计算变得可行。自动微分与经验NTK在训练中你可以利用现代深度学习框架的自动微分功能直接计算给定批次数据在当前参数θ下的经验NTK矩阵。这虽然计算开销大但能最准确地反映网络在训练中的瞬时动力学。6.4 物理视角对架构设计的启发物理视角不仅仅是解释工具也能启发新的架构。KAN的启示从Kolmogorov-Arnold定理出发将可学习的非线性放在边上启发了KAN。这挑战了“非线性在节点线性在边”的传统MLP范式。对称性网络从统计系综的对称性要求出发可以系统性地设计出具有特定时空对称性如欧几里得群、洛伦兹群或内部对称性如U(1)、SU(N)的网络层。这在物理模拟、材料科学中极具价值。NNGP作为先验你可以直接使用某个架构的NNGP核作为高斯过程回归的核函数进行快速原型验证。如果对应的GP在任务上表现很差那么训练该架构的神经网络很可能也好不到哪去。动力学引导初始化通过分析NTK在初始化时的谱可以设计初始化方案来改善训练动力学。例如确保NTK的特征值分布没有特别小的值可以避免训练初期某些模式学习过慢的问题。在我个人的研究经历中最深的体会是物理视角提供的是一种“为什么”的思维框架而不是一套可以直接套用的“烹饪手册”。它不能替代你调参、做实验的苦功夫但它能让你在调整旋钮时心里大致知道每个旋钮背后对应的是表达性、统计还是动力学上的哪根弦。当实验出现反直觉的结果时这个框架往往能提供一些最有可能的排查方向。比如如果模型泛化突然变差除了想到过拟合你可能会问是不是有限宽效应导致的统计涨落太大了是不是优化动力学陷入了一个对称性破缺的糟糕局部极小点这种多角度的思考是单纯工程实践难以培养的。