别再死记硬背公式了！用PyTorch/TensorFlow代码直观理解CNN的stride与padding

张

张建站

2026/4/23 19:45:35

10分钟阅读

别再死记硬背公式了！用PyTorch/TensorFlow代码直观理解CNN的stride与padding

用代码实验理解CNN的stride与padding告别公式恐惧的实战指南刚接触卷积神经网络时那些关于特征图尺寸计算的公式总让人头疼。与其死记硬背(W-F2P)/S 1这样的数学表达式不如直接打开Python编辑器用几行代码观察不同参数下张量的实际变化。这种所见即所得的学习方式往往比抽象推导更能建立直观理解。1. 环境准备与基础概念在开始实验前我们先快速回顾几个核心概念Stride步幅卷积核在输入图像上滑动的步长。步幅为1时逐个像素移动步幅为2则每次跳过1个像素。Padding填充在输入图像边缘添加的像素层通常用0填充用于控制输出尺寸。Channel通道输入数据的深度维度。RGB图像有3个通道而卷积层的每个滤波器会产生一个新的通道。准备好你的Python环境我们需要以下工具包import torch import torch.nn as nn import tensorflow as tf提示本文同时提供PyTorch和TensorFlow两种实现读者可任选熟悉的框架进行实验。2. PyTorch实战动态观察参数影响让我们从PyTorch开始创建一个简单的卷积层并观察其行为# 创建一个输入张量 (batch_size1, channels1, height5, width5) input_tensor torch.ones(1, 1, 5, 5) # 定义不同参数的卷积层 conv_stride1 nn.Conv2d(in_channels1, out_channels1, kernel_size3, stride1, padding0) conv_stride2 nn.Conv2d(1, 1, 3, stride2, padding0) conv_padding1 nn.Conv2d(1, 1, 3, stride1, padding1) # 打印输出尺寸 print(fStride1, Padding0: {conv_stride1(input_tensor).shape}) print(fStride2, Padding0: {conv_stride2(input_tensor).shape}) print(fStride1, Padding1: {conv_padding1(input_tensor).shape})运行这段代码你会看到三种不同参数组合的输出尺寸参数组合输出尺寸 (H×W)stride1, padding03×3stride2, padding02×2stride1, padding15×5这个简单的实验已经揭示了几个关键规律无padding时卷积核(kernel)会吃掉边缘。3×3的kernel会使每边减少1像素所以5×5输入变成3×3输出增大stride相当于跳着采样会显著缩小输出尺寸适当padding可以保持输入输出尺寸相同当stride1时3. TensorFlow验证更复杂的参数组合为了加深理解我们在TensorFlow中尝试更复杂的参数组合# 创建输入张量 (batch, height, width, channels) inputs tf.ones((1, 6, 6, 1)) # 不同参数组合的卷积层 conv1 tf.keras.layers.Conv2D(filters1, kernel_size3, strides1, paddingvalid) conv2 tf.keras.layers.Conv2D(1, 3, strides2, paddingsame) conv3 tf.keras.layers.Conv2D(1, 3, strides1, paddingsame) # 查看输出形状 print(Valid padding, stride1:, conv1(inputs).shape) print(Same padding, stride2:, conv2(inputs).shape) print(Same padding, stride1:, conv3(inputs).shape)观察到的输出Valid padding (即padding0), stride1 → 4×4Same padding, stride2 → 3×3Same padding, stride1 → 6×6这里有几个值得注意的细节TensorFlow的paddingsame会自动计算需要的填充量保持输出尺寸与输入尺寸的比例关系当stride2时samepadding会确保输出尺寸是输入尺寸的一半向上取整实际项目中推荐使用same或valid这种语义化参数而非硬编码数字4. 通道(Channel)的维度变化理解了空间维度后我们来看看通道维度的变化规律。创建一个多通道的卷积实验# 输入3通道的5×5图像 multi_input torch.ones(1, 3, 5, 5) # 卷积层3输入通道2个滤波器 multi_conv nn.Conv2d(in_channels3, out_channels2, kernel_size3, stride1, padding1) output multi_conv(multi_input) print(输出形状:, output.shape) # 输出torch.Size([1, 2, 5, 5])关键发现输入通道数必须与卷积核的通道数匹配这里都是3输出通道数由滤波器的数量决定这里设置了2个滤波器空间尺寸受padding影响这里padding1保持了5×55. 边界情况与常见陷阱通过代码实验我们可以发现一些容易混淆的情况# 特殊情况kernel_size1 conv_k1 nn.Conv2d(1, 1, kernel_size1, stride2, padding0) print(1×1 kernel, stride2:, conv_k1(input_tensor).shape) # 输出3×3 # 不对称stride conv_asym nn.Conv2d(1, 1, kernel_size3, stride(1,2), padding0) print(不对称stride:, conv_asym(input_tensor).shape) # 输出3×2常见误区1×1卷积的特殊性它不进行空间混合只做通道变换非对称参数stride和padding可以分别是(height, width)的元组小数结果的处理当计算出的尺寸不是整数时不同框架可能有不同的舍入方式注意实际项目中建议保持对称参数除非有特殊需求。非对称参数可能导致难以调试的维度问题。6. 可视化理解代码辅助的尺寸计算为了彻底掌握这些概念我们编写一个辅助函数来预测输出尺寸def calc_output_size(input_size, kernel_size, stride, padding): return (input_size - kernel_size 2 * padding) // stride 1 # 测试我们之前的例子 print(calc_output_size(5, 3, 1, 0)) # 输出3 print(calc_output_size(5, 3, 2, 0)) # 输出2 print(calc_output_size(5, 3, 1, 1)) # 输出5现在你可以先用这个函数计算预期输出尺寸然后创建实际的卷积层验证结果当两者不一致时深入思考原因这种预测-验证的学习循环能有效强化理解。7. 实际应用技巧基于这些实验总结几个实用技巧保持尺寸的技巧当stride1时设置padding(kernel_size-1)/2可保持尺寸因此常见的kernel_size都是奇数3,5,7等下采样的选择用stride2的卷积同时实现特征提取和下采样比先卷积再池化更高效通道数的设置通常逐层增加通道数减少空间尺寸常见模式(通道数64→128→256, 尺寸224→112→56→28)# 一个典型的CNN块示例 typical_block nn.Sequential( nn.Conv2d(64, 128, kernel_size3, stride2, padding1), nn.BatchNorm2d(128), nn.ReLU() )8. 扩展到其他操作同样的实验方法可以应用于其他CNN操作# 转置卷积的输出尺寸 deconv nn.ConvTranspose2d(1, 1, kernel_size3, stride2, padding1) print(deconv(input_tensor).shape) # 输出9×9 # 空洞卷积 dilated_conv nn.Conv2d(1, 1, kernel_size3, stride1, padding2, dilation2) print(dilated_conv(input_tensor).shape) # 输出5×5发现规律转置卷积可以增大空间尺寸常用于生成或上采样空洞卷积增大感受野而不增加参数通过间隔采样9. 调试维度问题的工具箱当在实际项目中遇到维度不匹配时这套方法能快速定位问题打印每一层的输入输出形状用calc_output_size函数验证预期检查参数是否对称特别注意stride1时的尺寸变化# 调试示例 problematic_net nn.Sequential( nn.Conv2d(3, 16, 5, stride2, padding1), nn.Conv2d(16, 32, 3, stride1, padding1), nn.Conv2d(32, 64, 3, stride2, padding0) ) x torch.rand(1, 3, 32, 32) for layer in problematic_net: x layer(x) print(x.shape)输出会显示每一层后的尺寸变化帮助定位哪一层的参数设置有问题。

FX3U-IE-V12.2 PLC源代码：支持网口编程与监控，兼容ModbusTCP与双串口M...

FX3U-IE-V12.2 PLC源代码,网口实现本地或远程穿透编程、监控。网口支持FXTCP mc协议的触摸屏、上位机组态连接。硬件STM32F103VET6和RET6，兼容三菱FX3U源码，带modbusTCP服务和双串口ModbusRTU主从站功能（可通过plc程序切换）&…...

2026/4/23 19:43:40 阅读更多 →

VSCode 2026农业插件实测报告：3大国产土壤传感器接入耗时从27分钟压缩至47秒（附完整CI/CD流水线配置）

https://intelliparadigm.com 第一章：VSCode 2026农业物联网插件开发概览 VSCode 2026 版本针对垂直行业深度优化，其扩展生态系统新增对农业物联网（Agri-IoT）场景的原生支持，包括低功耗传感器模拟、边缘协议调试器、田…...

2026/4/23 19:42:54 阅读更多 →

强力开源图片去重工具：三步骤彻底清理重复照片，释放30%存储空间

强力开源图片去重工具：三步骤彻底清理重复照片，释放30%存储空间【免费下载链接】AntiDupl A program to search similar and defect pictures on the disk 项目地址: https://gitcode.com/gh_mirrors/an/AntiDupl 在数字时代，我们的设…...

2026/4/23 19:41:26 阅读更多 →

前端三剑客 vs Vue.js：核心区别解析

好的，这是一个关于前端技术的常见问题。我们来理清 HTML CSS JavaScript（通常称为“前端三剑客”）与 Vue.js（一个流行的 JavaScript 框架）之间的区别：核心概念不同HTML CSS JavaScript： 这是…...

2026/4/20 15:14:20 阅读更多 →

【SAP Basis】从SU01出发：深入解析SAP用户账号管理的核心配置与实战

1. SU01入门：SAP用户管理的核心入口第一次接触SAP Basis管理时，我被满屏的事务码搞得晕头转向。直到导师指着SU01说："这是你未来每天都要打交道的老朋友"，我才意识到用户管理的重要性。SU01就像SAP系统的门禁控制台&am…...

2026/4/23 4:18:42 阅读更多 →

AI代码配额管理实战指南：7大行业真实配额模型+3类超限预警SOP（附2026大会未发布白皮书节选）

第一章：AI代码配额管理的范式跃迁与大会使命 2026奇点智能技术大会(https://ml-summit.org) 传统资源配额模型正面临根本性挑战：当大语言模型驱动的代码生成器每秒产出数百行可执行逻辑，静态CPU/内存阈值已无法表征真实开发意图与语义负载。…...

2026/4/20 13:56:02 阅读更多 →

7-Zip终极指南：免费开源的文件压缩神器如何改变你的文件管理方式

7-Zip终极指南：免费开源的文件压缩神器如何改变你的文件管理方式【免费下载链接】7z 7-Zip Official Chinese Simplified Repository (Homepage and 7z Extra package) 项目地址: https://gitcode.com/gh_mirrors/7z1/7z 你是否曾为电脑空间不足而烦恼&…...

2026/4/23 2:47:31 阅读更多 →