别再死记公式了！用Python手写一个Self-Attention，带你彻底搞懂Transformer核心

张

张建站

2026/4/23 23:27:20

10分钟阅读

别再死记公式了用Python手写一个Self-Attention带你彻底搞懂Transformer核心理解Self-Attention机制最有效的方式不是背诵公式而是亲手实现它。本文将用纯Python从零构建一个完整的Self-Attention层通过代码逐行解析Q、K、V矩阵的生成、缩放点积计算、Softmax归一化和加权求和过程。我们将使用简单的数值示例配合维度变换示意图让这个看似复杂的机制变得直观可操作。1. 环境准备与基础概念在开始编码前我们需要明确几个关键概念。Self-Attention是Transformer架构的核心组件它允许模型在处理序列数据时动态地关注输入的不同部分。与传统注意力机制不同Self-Attention的查询(Query)、键(Key)和值(Value)都来自同一输入源。准备一个Python环境建议3.8我们只需要基础库import numpy as np import math理解三个核心矩阵的作用Q(Query): 表示当前关注的问题K(Key): 表示被查询的索引V(Value): 实际被加权的内容2. 输入数据与参数初始化让我们定义一个简单的输入序列假设每个词用4维向量表示实际中通常是512或768维# 输入矩阵X3个token每个4维 X np.array([ [1, 0, 1, 0], # 词1 [0, 2, 0, 2], # 词2 [1, 1, 1, 1] # 词3 ]) print(输入矩阵X形状:, X.shape) # (3,4)初始化可训练的权重矩阵。在实践中这些参数会被学习这里我们手动设置合理值# 初始化权重矩阵实际应用中这些是随机初始化并通过训练学习的 W_Q np.array([ [1, 0, 1], [1, 0, 0], [0, 0, 1], [0, 1, 1] ]) W_K np.array([ [0, 0, 1], [1, 1, 0], [0, 1, 0], [1, 1, 0] ]) W_V np.array([ [0, 2, 0], [0, 3, 0], [1, 0, 3], [1, 1, 0] ])3. 计算Q、K、V矩阵现在计算查询、键和值矩阵# 计算Q、K、V Q np.dot(X, W_Q) # (3,4) x (4,3) - (3,3) K np.dot(X, W_K) # (3,4) x (4,3) - (3,3) V np.dot(X, W_V) # (3,4) x (4,3) - (3,3) print(Q矩阵:\n, Q) print(K矩阵:\n, K) print(V矩阵:\n, V)输出示例Q矩阵: [[1 0 2] [2 2 2] [2 1 3]] K矩阵: [[0 1 1] [4 4 0] [2 3 1]] V矩阵: [[1 2 3] [2 8 0] [2 6 3]]4. 注意力分数计算关键步骤是计算注意力分数然后进行缩放和Softmax归一化# 计算注意力分数 d_k Q.shape[-1] # 特征维度这里是3 attention_scores np.dot(Q, K.T) / math.sqrt(d_k) print(原始注意力分数:\n, attention_scores) # Softmax归一化 def softmax(x): exp_x np.exp(x - np.max(x, axis-1, keepdimsTrue)) return exp_x / np.sum(exp_x, axis-1, keepdimsTrue) attention_weights softmax(attention_scores) print(归一化注意力权重:\n, attention_weights)典型输出原始注意力分数: [[ 2.30940108 8.08290377 4.04145188] [ 4.61880215 16.16580755 8.08290377] [ 4.04145188 14.47219556 7.5055535 ]] 归一化注意力权重: [[2.14400953e-03 9.97503656e-01 3.52307191e-04] [1.50609632e-06 9.99998494e-01 1.50609632e-06] [1.87217044e-05 9.99981408e-01 1.87217044e-05]]5. 加权求和与最终输出最后一步是用注意力权重对V矩阵进行加权求和# 计算加权和 output np.dot(attention_weights, V) print(最终输出:\n, output)输出结果示例最终输出: [[2.00214401 7.99007231 2.99707072] [2.00000301 7.99996988 3.00000301] [2.00003744 7.99962817 3.00003744]]6. 常见问题与调试技巧在实现过程中容易遇到的几个典型问题维度不匹配错误确保矩阵乘法维度对齐(n,d) x (d,m) → (n,m)使用print(矩阵.shape)随时检查维度忘记缩放点积必须除以√d_k否则Softmax可能梯度消失缩放因子应与K的最后一个维度一致Softmax数值稳定性实现时减去最大值防止数值溢出exp_x np.exp(x - np.max(x, axis-1, keepdimsTrue))注意力模式异常检查权重分布是否合理可视化注意力矩阵有助于调试import matplotlib.pyplot as plt plt.imshow(attention_weights, cmapviridis) plt.colorbar() plt.show()7. 扩展多头注意力实现真正的Transformer使用多头注意力让我们实现一个简化版def multi_head_attention(X, num_heads2): d_model X.shape[-1] assert d_model % num_heads 0 depth d_model // num_heads # 分割到多个头 def split_heads(x): return x.reshape(x.shape[0], num_heads, depth) Q split_heads(np.dot(X, W_Q)) K split_heads(np.dot(X, W_K)) V split_heads(np.dot(X, W_V)) # 每个头单独计算注意力 scaled_attention [] for h in range(num_heads): attn np.dot(Q[:,h,:], K[:,h,:].T) / math.sqrt(depth) attn softmax(attn) scaled_attention.append(np.dot(attn, V[:,h,:])) # 合并多头结果 concat_attention np.concatenate(scaled_attention, axis-1) return concat_attention print(多头注意力输出:\n, multi_head_attention(X))8. 实际应用中的优化在生产环境中我们还需要考虑批处理优化# 假设batch_size32, seq_len10, dim512 batch_X np.random.rand(32, 10, 512)掩码处理用于处理变长序列def get_padding_mask(seq): mask (seq ! 0).astype(float32) return mask[:, np.newaxis, np.newaxis, :]位置编码def positional_encoding(max_len, d_model): pos np.arange(max_len)[:, np.newaxis] i np.arange(d_model)[np.newaxis, :] angle_rates 1 / np.power(10000, (2 * (i//2)) / d_model) pe pos * angle_rates pe[:, 0::2] np.sin(pe[:, 0::2]) # 偶数索引 pe[:, 1::2] np.cos(pe[:, 1::2]) # 奇数索引 return pe通过这次手写实现你会发现Self-Attention本质上是一系列精心设计的矩阵运算。在真实项目中虽然我们会使用PyTorch或TensorFlow的优化实现但理解底层计算过程能帮助你在模型出现问题时快速定位原因也能更好地调整注意力机制的超参数。

从原理图到数据流：手把手教你设计CY7C68013A与FPGA的硬件连接（附常见接线错误排查）

从原理图到数据流：手把手教你设计CY7C68013A与FPGA的硬件连接（附常见接线错误排查） 在嵌入式系统开发中，将USB控制器与FPGA协同工作是一个常见但颇具挑战性的任务。CY7C68013A作为一款高性能USB 2.0控制器芯片，与FPGA的…...

2026/4/23 23:26:42 阅读更多 →

League-Toolkit实战指南：英雄联盟玩家的智能竞技伙伴深度解析

League-Toolkit实战指南：英雄联盟玩家的智能竞技伙伴深度解析【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 想象一下这样的场景&…...

2026/4/23 23:25:24 阅读更多 →

大模型训练中的内存优化与AdaOffload并行策略

1. 大模型训练中的内存挑战与并行策略在当今大规模语言模型训练中，内存管理已成为制约模型规模扩展的关键瓶颈。以14.2B参数的模型为例，仅模型参数就需要约56GB显存（假设32位浮点数），而实际训练过程中还需要存储激活值…...

2026/4/23 23:23:31 阅读更多 →

前端三剑客 vs Vue.js：核心区别解析

好的，这是一个关于前端技术的常见问题。我们来理清 HTML CSS JavaScript（通常称为“前端三剑客”）与 Vue.js（一个流行的 JavaScript 框架）之间的区别：核心概念不同HTML CSS JavaScript： 这是…...

2026/4/20 15:14:20 阅读更多 →

【SAP Basis】从SU01出发：深入解析SAP用户账号管理的核心配置与实战

1. SU01入门：SAP用户管理的核心入口第一次接触SAP Basis管理时，我被满屏的事务码搞得晕头转向。直到导师指着SU01说："这是你未来每天都要打交道的老朋友"，我才意识到用户管理的重要性。SU01就像SAP系统的门禁控制台&am…...

2026/4/23 4:18:42 阅读更多 →

AI代码配额管理实战指南：7大行业真实配额模型+3类超限预警SOP（附2026大会未发布白皮书节选）

第一章：AI代码配额管理的范式跃迁与大会使命 2026奇点智能技术大会(https://ml-summit.org) 传统资源配额模型正面临根本性挑战：当大语言模型驱动的代码生成器每秒产出数百行可执行逻辑，静态CPU/内存阈值已无法表征真实开发意图与语义负载。…...

2026/4/20 13:56:02 阅读更多 →

7-Zip终极指南：免费开源的文件压缩神器如何改变你的文件管理方式

7-Zip终极指南：免费开源的文件压缩神器如何改变你的文件管理方式【免费下载链接】7z 7-Zip Official Chinese Simplified Repository (Homepage and 7z Extra package) 项目地址: https://gitcode.com/gh_mirrors/7z1/7z 你是否曾为电脑空间不足而烦恼&…...

2026/4/23 2:47:31 阅读更多 →