大家好我是小悟。告别半夜被电话叫醒让 AI 助手帮你 7×24 小时守护服务器一、需求背景1.1 痛点场景作为运维人员你是否经历过这些崩溃时刻凌晨 3 点服务器 CPU 飙升到 100%但没人发现直到用户投诉线上服务宕机2 小时因为没有人及时感知到进程退出磁盘空间耗尽数据库写入失败造成数据丢失内存泄漏导致 OOM服务被强制杀死传统的监控方案如 Zabbix、Prometheus 虽然功能强大但❌ 配置复杂学习成本高❌ 需要额外部署服务器❌ 维护负担重❌ 中小团队用不起商业版1.2 我们需要什么一个轻量、智能的监控方案需求说明✅ 自动监测无需人工干预7×24 小时运行✅ 实时告警发现问题立即通知支持多渠道✅ 微信推送运维人员最常用的沟通工具✅ 灵活配置可自定义监测指标和告警阈值✅ 简单易用无需专业知识开箱即用1.3 为什么选择 QClawQClaw是腾讯推出的 AI 个人助手平台天然具备以下优势特性优势 AI 智能可以理解自然语言智能分析异常 Skill 体系模块化扩展按需安装功能⏰ 定时任务内置 Cron 调度自动执行检查 安全可靠本地运行数据不外泄二、方案架构2.1 整体流程┌─────────────┐ SSH/API ┌──────────────┐ │ Linux 服务器 │ ←──────────────→ │ QClaw │ │ │ │ (本地/云端) │ │ - CPU/内存 │ │ │ │ - 磁盘/网络 │ │ - 定时检查 │ │ - 进程状态 │ │ - 规则判断 │ │ - 应用日志 │ │ - 异常检测 │ └─────────────┘ └──────┬───────┘ │ │ 发现异常 ↓ ┌──────────────┐ │ 企业微信 │ │ 机器人 │ │ │ │ 告警消息 │ └──────────────┘ │ ↓ ┌──────────────┐ │ 运维人员 │ │ 微信收到 │ └──────────────┘2.2 核心组件组件作用说明QClaw监控中心运行在你的电脑或服务器上SSH 连接数据采集通过 SSH 远程执行命令获取数据定时任务调度引擎使用 OpenClaw Cron 定时触发检查企业微信机器人消息推送接收告警并推送到微信群三、详细步骤步骤 1准备 Linux 服务器访问权限1.1 确保可以通过 SSH 访问# 测试 SSH 连接sshusernameyour-server-ip# 如果使用密钥认证推荐ssh-i~/.ssh/your-key.pem usernameyour-server-ip1.2 配置 SSH 密钥免密登录可选但推荐# 生成密钥对如果还没有ssh-keygen-trsa-b4096# 将公钥复制到服务器ssh-copy-id usernameyour-server-ip# 测试免密登录sshusernameyour-server-ipecho 连接成功1.3 记录服务器信息请记录以下信息后续配置需要使用服务器 IP192.168.1.100 SSH 端口22 用户名root 认证方式密钥 / 密码步骤 2创建企业微信机器人2.1 在企业微信群中添加机器人打开企业微信群聊点击右上角...→群机器人→添加机器人给机器人命名如服务器监控告警复制Webhook 地址Webhook 格式 https://qyapi.weixin.qq.com/cgi-bin/webhook/send?keyxxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx2.2 测试机器人curlhttps://qyapi.weixin.qq.com/cgi-bin/webhook/send?key你的key\-HContent-Type: application/json\-d { msgtype: text, text: { content: 测试消息QClaw 监控已启动 } }看到群内收到消息说明配置成功。步骤 3配置 QClaw 监测任务3.1 告诉 QClaw 你的需求在 QClaw 中发送请帮我监测 Linux 服务器IP: 192.168.1.100用户: root检查以下指标 1. CPU 使用率超过 80% 告警 2. 内存使用率超过 85% 告警 3. 磁盘使用率超过 90% 告警 4. 系统负载Load Average 4 告警 5. Nginx 进程状态如果退出则告警 6. MySQL 进程状态如果退出则告警 每 5 分钟检查一次发现问题发送到企业微信机器人。3.2 提供企业微信 Webhook企业微信 Webhook 地址https://qyapi.weixin.qq.com/cgi-bin/webhook/send?keyxxx3.3 QClaw 会自动帮你完成QClaw 会自动✅ 创建 SSH 连接配置✅ 编写监测脚本检查各项指标✅ 设置告警规则和阈值✅ 配置定时任务Cron✅ 集成企业微信推送✅ 开始第一次监测步骤 4监测脚本QClaw 会生成类似以下的监测脚本#!/bin/bash# QClaw 服务器监控脚本# 服务器信息SERVER_IP192.168.1.100SERVER_USERrootWEBHOOK_URLhttps://qyapi.weixin.qq.com/cgi-bin/webhook/send?keyxxx# 告警消息ALERT_MSG# 检查 CPU 使用率CPU_USAGE$(ssh$SERVER_USER$SERVER_IPtop -bn1 | grep Cpu(s) | awk {print \$2} | cut -d% -f1)if(($(echo $CPU_USAGE80|bc-l)));thenALERT_MSG⚠️ CPU 使用率过高:${CPU_USAGE}%\nfi# 检查内存使用率MEM_USAGE$(ssh$SERVER_USER$SERVER_IPfree | grep Mem | awk {print (\$3/\$2) * 100.0})if(($(echo $MEM_USAGE85|bc-l)));thenALERT_MSG⚠️ 内存使用率过高:${MEM_USAGE}%\nfi# 检查磁盘使用率DISK_USAGE$(ssh$SERVER_USER$SERVER_IPdf -h / | tail -1 | awk {print \$5} | cut -d% -f1)if[$DISK_USAGE-gt90];thenALERT_MSG⚠️ 磁盘使用率过高:${DISK_USAGE}%\nfi# 检查 Nginx 进程NGINX_STATUS$(ssh$SERVER_USER$SERVER_IPpgrep nginx | wc -l)if[$NGINX_STATUS-eq0];thenALERT_MSG Nginx 进程已退出\nfi# 检查 MySQL 进程MYSQL_STATUS$(ssh$SERVER_USER$SERVER_IPpgrep mysql | wc -l)if[$MYSQL_STATUS-eq0];thenALERT_MSG MySQL 进程已退出\nfi# 发送告警if[-n$ALERT_MSG];thenCURRENT_TIME$(date%Y-%m-%d %H:%M:%S)curl$WEBHOOK_URL\-HContent-Type: application/json\-d{\msgtype\:\markdown\,\markdown\: {\content\:\ **服务器告警**\n\n**服务器**:$SERVER_IP\n**时间**:$CURRENT_TIME\n\n$ALERT_MSG\n请及时处理\} }fi步骤 5配置定时任务5.1 让 QClaw 设置 Cron 任务告诉 QClaw请帮我创建一个定时任务每 5 分钟执行一次服务器检查QClaw 会使用内置的 Cron 工具自动配置# QClaw 会执行类似以下命令openclawcronadd\--nameserver-health-check\--scheduleevery 5 minutes\--task检查服务器状态并发送告警5.2 验证定时任务# 查看已配置的定时任务openclawcronlist# 手动触发一次检查测试openclawcronrun server-health-check步骤 6测试告警流程6.1 模拟异常场景# 在服务器上临时占用 CPU测试 CPU 告警ddif/dev/zeroof/dev/null# 在服务器上临时占用内存测试内存告警ddif/dev/zeroof/tmp/testfilebs1Mcount80006.2 验证微信收到告警等待 5 分钟或手动触发检查你应该在企业微信群收到类似消息6.3 清理测试数据# 停止 CPU 占用进程killalldd# 清理测试文件rm/tmp/testfile步骤 7进阶配置7.1 添加自定义监测项告诉 QClaw请帮我添加以下监测 1. 检查 /var/log/app/error.log 中是否有 ERROR 关键字 2. 检查 API 接口 https://api.example.com/health 是否返回 200 3. 检查 Redis 进程是否存活 4. 检查服务器连接数是否超过 10007.2 配置静默时段夜间 0:00-6:00 只发送严重告警进程退出忽略 CPU/内存告警7.3 多服务器监控请帮我添加第二台服务器IP: 192.168.1.101的监控监控项目和第一台一样四、监控效果4.1 正常情况QClaw 每 5 分钟静默检查无异常时不发送消息不打扰运维人员。4.2 异常告警当发现问题时立即推送到企业微信 服务器告警 服务器192.168.1.100 时间2026-04-10 16:45:00 ⚠️ CPU 使用率过高: 92.3% ⚠️ 内存使用率过高: 88.7% Nginx 进程已退出 请及时处理4.3 多维度监控监控项告警阈值检查频率CPU 使用率 80%5 分钟内存使用率 85%5 分钟磁盘使用率 90%5 分钟系统负载 45 分钟Nginx 进程退出5 分钟MySQL 进程退出5 分钟应用健康检查非 2005 分钟错误日志出现 ERROR5 分钟五、常见问题Q1: SSH 连接失败怎么办A:检查以下几点服务器 IP 和端口是否正确用户名是否正确密钥文件权限是否正确chmod 600 ~/.ssh/key.pem服务器是否允许 SSH 连接防火墙规则Q2: 企业微信收不到消息A:检查以下几点Webhook 地址是否正确机器人是否被移除出群消息格式是否符合企业微信规范网络是否能访问qyapi.weixin.qq.comQ3: 如何修改告警阈值A:直接告诉 QClaw请把 CPU 告警阈值改为 90%内存告警阈值改为 95%Q4: 如何临时关闭监控A:请暂停服务器监控定时任务Q5: 如何查看历史告警记录A:请显示最近 24 小时的告警记录六、方案优势总结6.1 相比传统监控方案对比项传统方案 (Zabbix/Prometheus)QClaw 方案部署复杂度需要独立服务器安装配置复杂零部署开箱即用学习成本需要学习专业知识自然语言配置维护成本需要专人维护自动化零维护告警渠道需要配置原生支持微信智能程度规则告警AI 智能分析6.2 核心优势 零门槛无需专业知识自然语言配置开箱即用 低成本无需购买服务器无需购买监控服务 AI 智能自动生成监测脚本智能分析异常自然语言交互 即时告警微信实时推送多维度监控精准告警 灵活扩展自定义监测项自定义告警规则支持多服务器七、总结通过 QClaw我们用最简单的方式实现了企业级的 Linux 服务器监控5 分钟 → 完成配置 微信告警 → 即时触达 AI 智能 → 自动分析适合人群✅ 中小团队运维✅ 个人开发者✅ 创业公司✅ 学生项目不适合场景❌ 大规模集群监控100 服务器❌ 需要专业监控报表❌ 复杂的告警路由规则八、立即开始你只需要一台能访问 Linux 服务器的电脑一个企业微信账号5 分钟时间然后告诉 QClaw“请帮我监测 Linux 服务器…”剩下的交给 AI 就好谢谢你看我的文章既然看到这里了如果觉得不错随手点个赞、转发、在看三连吧感谢感谢。那我们下次再见。您的一键三连是我更新的最大动力谢谢山水有相逢来日皆可期谢谢阅读我们再会我手中的金箍棒上能通天下能探海