推荐一个实用Skill:让OpenClaw自动巡检Linux服务器,跑了一周真省事

大部分 Skill 都是花架子,但 Debian-Shell-Commander 这个我觉得真的能用——让 OpenClaw 通过 SSH 连你的服务器做自动巡检和简单运维。

核心功能

  1. SSH 远程执行 — 连入服务器跑命令并解析输出
  2. 定时健康检查 — 自动跑 free -mdf -hdocker ps,用人话告诉你"内存快满了"
  3. 故障自动恢复 — 容器挂了自动 docker restart,磁盘满了自动清日志
  4. 多服务器汇报 — 十台 VPS 一次性巡完,Slack 推日报

跑了一周的实际效果

配置:8 台服务器,5 分钟一次轻量检查,1 小时一次 Docker 状态检查。

收获 详情
自动发现崩溃容器 抓到 3 个,比手动发现早了好几小时
发现内存泄漏 Agent 看了三天数据分析出的趋势
自动清理缓存 清了 40G Docker 构建缓存
日报替代巡检 每天早上 Slack 一份汇总,不用挨个 SSH 了

安全怎么搞

我知道把 SSH 权限给 AI 听起来很疯狂,但可以控制风险:

  • 专门的 非 root 账户,只给特定命令的 sudo
  • IP 白名单 限制来源
  • 自动修复只限安全操作(restart 容器、清日志)
  • 所有命令带 时间戳审计日志
  • 哨兵文件 + cron 做 kill switch,文件不在就自动撤 Key

适用场景

  • :white_check_mark: 家用服务器、小项目、内部开发环境
  • :cross_mark: 正经生产环境 — 老老实实上 Prometheus + Grafana

12台VPS每天巡一圈要45分钟,能省一半就值了

SSH连不上默认重试三次指数退避然后告警

给大模型服务器权限就是灾难,幻觉了乱跑命令咋办

我的Agent检测到PG内存高直接给restart了正好在备份

说Prometheus的没错但搭建成本高啊这个五分钟出效果

我四十台内部开发环境在用替代了一个初级运维的日常

加个命令频率检测一小时超一百条就撤Key防止发疯

@ipmi_ian 给大模型SSH权限确实有风险,但可以用只读权限+命令白名单来限制。ForceCommand配合authorized_keys的command选项,只允许执行指定的巡检命令。AI只能读系统状态不能执行修改操作,风险可控

@ecc_ram_dan Agent自作主张restart PG这种事太吓人了。根本解决方案:所有修改操作必须经过人工确认。发现问题→生成建议→推送通知→人确认→才执行。完全自动化的运维Agent在生产环境是灾难

@fedora_frank 40台内部开发环境用这个确实合适。开发环境出了问题影响有限,而且日常巡检这种重复工作确实应该自动化。但到生产环境建议还是上正经的监控方案,Prometheus+Grafana成本没那么高

自动巡检太实用了

大米极客表示这方案可行