【Ubuntu 20.04 深度学习环境部署】（从驱动到Anaconda，避坑指南与版本选择策略）

张

张建站

2026/4/17 7:00:17

10分钟阅读

【Ubuntu 20.04 深度学习环境部署】（从驱动到Anaconda，避坑指南与版本选择策略）

1. 深度学习环境部署前的系统准备刚拿到一台装好Ubuntu 20.04的机器时很多人会直接开始安装驱动这其实是个常见误区。我见过太多人因为跳过系统基础配置而导致后续安装失败的情况。正确的做法是先做好这三件事第一确保系统更新到最新状态。打开终端输入sudo apt update sudo apt upgrade -y这个操作会更新所有系统组件和软件包避免因为系统版本过旧导致的兼容性问题。记得有一次我帮学弟调试环境折腾了两天驱动都装不上最后发现只是因为系统没更新。第二检查GPU硬件是否被识别。运行lspci | grep -i nvidia如果能看到类似3D controller: NVIDIA Corporation GA106M [GeForce RTX 3060 Mobile]的输出说明系统已经识别到你的NVIDIA显卡。如果什么都没显示可能需要检查硬件连接或BIOS设置。第三安装必要的编译工具链。深度学习环境很多组件需要本地编译提前装好这些工具能避免后续麻烦sudo apt install build-essential cmake unzip -y注意如果是云服务器环境建议先联系服务商确认是否预装了NVIDIA驱动。很多云平台提供预装驱动的镜像能省去不少麻烦。2. 显卡驱动安装的避坑实践显卡驱动是深度学习环境的地基但也是新手最容易翻车的地方。根据我的经验90%的安装问题都出在这个环节。下面分享几种经过验证的安装方法。2.1 彻底禁用nouveau驱动Ubuntu默认使用的开源nouveau驱动会与NVIDIA官方驱动冲突必须完全禁用。很多教程只教了修改blacklist.conf但完整的处理流程应该是先检查nouveau是否正在使用lsmod | grep nouveau如果有输出创建禁用配置文件sudo nano /etc/modprobe.d/blacklist-nouveau.conf加入以下内容blacklist nouveau options nouveau modeset0更新initramfs并重启sudo update-initramfs -u sudo reboot重启后再次检查确保没有任何输出。我曾经遇到过一次即使禁用后仍然残留的情况最后发现是因为之前安装失败的驱动没清理干净。2.2 在线安装的智能选择Ubuntu自带的驱动管理工具其实很实用ubuntu-drivers devices这个命令会列出所有可用驱动版本并标注推荐安装的版本。比如输出可能是driver : nvidia-driver-525 - third-party free recommended driver : nvidia-driver-510 - third-party free建议选择带recommended标记的版本然后使用sudo ubuntu-drivers autoinstall实测发现对于RTX 30/40系列显卡525及以上版本驱动更稳定。如果遇到依赖问题可以尝试先安装dkmssudo apt install dkms2.3 离线安装的完整流程当网络环境不稳定时离线安装更可靠。具体步骤到NVIDIA官网下载对应驱动.run文件注意选择Linux 64-bit版本安装编译依赖sudo apt install gcc make libglvnd-dev -y给安装文件添加执行权限chmod x NVIDIA-Linux-x86_64-525.105.17.run关键安装命令注意参数sudo ./NVIDIA-Linux-x86_64-525.105.17.run --no-opengl-files --no-x-check其中--no-opengl-files避免覆盖系统OpenGL库--no-x-check安装时禁用X服务检查验证安装nvidia-smi正常应该看到类似这样的输出----------------------------------------------------------------------------- | NVIDIA-SMI 525.105.17 Driver Version: 525.105.17 CUDA Version: 12.0 | |---------------------------------------------------------------------------3. CUDA工具链的科学搭配3.1 版本选择的黄金法则CUDA版本不是越新越好需要与驱动版本匹配。我总结的兼容性原则是驱动版本 ≥ CUDA版本要求的最低驱动通常选择比当前驱动支持的CUDA低1-2个小版本可以通过nvidia-smi查看驱动支持的CUDA最高版本。例如输出中CUDA Version:12.0表示该驱动最高支持CUDA 12.0实际安装11.8会更稳定。3.2 定制化安装技巧从NVIDIA官网下载.run安装包时推荐使用wget直接获取wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run安装时使用这些参数更安全sudo sh cuda_11.8.0_520.61.05_linux.run --override --toolkit --samples --silent关键组件选择取消勾选Driver已安装独立驱动勾选CUDA Toolkit和Samples3.3 环境变量配置的现代方案传统方法是在.bashrc中添加路径但我更推荐使用profile.d方式创建新配置文件sudo nano /etc/profile.d/cuda.sh加入以下内容export PATH/usr/local/cuda-11.8/bin${PATH::${PATH}} export LD_LIBRARY_PATH/usr/local/cuda-11.8/lib64${LD_LIBRARY_PATH::${LD_LIBRARY_PATH}}使配置立即生效source /etc/profile验证安装nvcc --version应该看到类似nvcc: NVIDIA (R) Cuda compiler release 11.8, V11.8.894. cuDNN的高效部署方法4.1 版本匹配的精确控制cuDNN版本必须严格匹配CUDA版本。我常用的组合是CUDA 11.8 → cuDNN 8.6.xCUDA 12.0 → cuDNN 8.9.x可以在NVIDIA官网查看详细的版本兼容性表格。下载时一定要选择Tar Archive格式方便手动部署。4.2 文件部署的正确姿势解压下载的tar包后执行这些命令sudo cp cuda/include/cudnn*.h /usr/local/cuda/include sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64 sudo chmod ar /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*对于cuDNN 8.0版本还需要复制版本文件sudo cp cuda/include/cudnn_version.h /usr/local/cuda/include4.3 验证安装的可靠方法创建测试程序git clone https://github.com/NVIDIA/cuda-samples.git cd cuda-samples/Samples/1_Utilities/deviceQuery make ./deviceQuery如果输出中包含cuDNN Version且显示正确版本号说明安装成功。5. Anaconda的科学管理策略5.1 安装路径的最佳实践不建议使用默认的/home路径安装特别是多用户环境。我推荐mkdir -p /opt/anaconda3 chmod 777 /opt/anaconda3然后运行安装脚本时指定路径bash Anaconda3-2023.03-Linux-x86_64.sh -b -p /opt/anaconda35.2 环境变量的智能配置现代Linux系统建议使用/etc/profile.d/方式sudo nano /etc/profile.d/anaconda.sh内容为export PATH/opt/anaconda3/bin:$PATH5.3 虚拟环境的黄金组合创建深度学习专用环境conda create -n dl python3.9 conda activate dl conda install numpy pandas matplotlib scikit-learn jupyter对于PyTorch/TensorFlow使用官方命令# PyTorch conda install pytorch torchvision torchaudio pytorch-cuda11.8 -c pytorch -c nvidia # TensorFlow conda install -c conda-forge cudatoolkit11.8 cudnn8.6 pip install tensorflow2.12.0验证GPU是否可用import torch print(torch.cuda.is_available()) # 应该返回True6. 常见问题排查手册6.1 驱动加载失败症状nvidia-smi报错NVIDIA-SMI has failed... 解决方法检查内核版本匹配uname -r确保驱动支持当前内核重建驱动模块sudo dkms remove -m nvidia -v 525.105.17 --all sudo dkms install -m nvidia -v 525.105.176.2 CUDA运行时错误症状程序报错could not find libcudart.so 解决方法sudo ldconfig /usr/local/cuda/lib64并检查环境变量是否设置正确6.3 Conda环境冲突症状import tensorflow时报GLIBCXX错误解决方法conda install -c conda-forge libgcc-ng7. 版本组合推荐方案根据2023年实际项目经验推荐这些稳定组合硬件世代驱动版本CUDA版本cuDNN版本框架版本RTX 20系470.19911.4.28.2.4TF 2.8/PyTorch 1.12RTX 30系525.10511.8.08.6.0TF 2.12/PyTorch 2.0RTX 40系535.10412.0.18.9.2PyTorch 2.1对于学术研究建议选择稍旧的稳定版本工业部署可以考虑较新版本但要做好充分的兼容性测试。

Word论文排版小技巧：如何一键实现连续文献引用[1-3]格式（附详细图文）

Word论文排版进阶：高效实现连续文献引用[1-3]格式的三大方案写论文最烦人的事情之一，就是处理文献引用格式。尤其是当需要连续引用多篇文献时，手动调整成[1-3]这样的格式既耗时又容易出错。作为一名常年与Word斗智斗勇的科研狗，我…...

2026/4/17 6:59:12 阅读更多 →

RHEL 9 SSH 密码登录失败全排查与终极解决

在虚拟机部署 RHEL 9 后，相信不少人都遇到过「改完 root 密码，SSH 连接却一直提示密码错误」的离谱问题。我在最近的环境搭建中就完整踩了一遍这个坑，从命令拼写错误、正则匹配失效到 vi 操作卡壳，几乎把所有新手坑都踩了一遍&…...

2026/4/17 6:53:19 阅读更多 →

2026信息安全就业方向+前景｜零基础入门到精通，收藏不踩坑

知道网络IP怎么反查出真实域名来？给大家分享几个我常用的方法，就算你不懂技术你都能查得出来！ 一、fofa 这是一个白帽黑客非常喜欢用的社工平台，只要你输入IP就能查到很多背后的信息。传送门：https://fofa.info 二…...

2026/4/17 6:52:23 阅读更多 →

终极AssetStudio指南：轻松提取Unity游戏资源的完整教程

终极AssetStudio指南：轻松提取Unity游戏资源的完整教程【免费下载链接】AssetStudio AssetStudio is an independent tool for exploring, extracting and exporting assets. 项目地址: https://gitcode.com/gh_mirrors/ass/AssetStudio 🚀 你是…...

2026/4/16 10:26:51 阅读更多 →

Spring with AI (): 定制对话——Prompt模板引入技

插件化架构 v3 版本最大的变化是引入了模块化插件系统。此前版本中集成在核心包里的原生功能，现在被拆分成独立的插件。每个插件都是一个独立的 Composer 包，包含 Swift 和 Kotlin 代码、权限清单以及原生依赖。开发者只需安装实际用到的插件&#xff0…...

2026/4/13 13:59:31 阅读更多 →

终极指南：如何让微信网页版重新可用？wechat-need-web插件全面解析

终极指南：如何让微信网页版重新可用？wechat-need-web插件全面解析【免费下载链接】wechat-need-web 让微信网页版可用 / Allow the use of WeChat via webpage access 项目地址: https://gitcode.com/gh_mirrors/we/wechat-need-web 还在为微信网…...

2026/4/15 22:38:10 阅读更多 →