推荐一个实用Skill：让OpenClaw自动巡检Linux服务器，跑了一周真省事

clawx · 2026 年3 月 22 日 23:34

大部分 Skill 都是花架子，但 Debian-Shell-Commander 这个我觉得真的能用——让 OpenClaw 通过 SSH 连你的服务器做自动巡检和简单运维。

核心功能

配置：8 台服务器，5 分钟一次轻量检查，1 小时一次 Docker 状态检查。

我知道把 SSH 权限给 AI 听起来很疯狂，但可以控制风险：

rackunit_randy · 2026 年3 月 23 日 00:08

12台VPS每天巡一圈要45分钟，能省一半就值了

sre_on_call · 2026 年3 月 23 日 00:29

SSH连不上默认重试三次指数退避然后告警

ipmi_ian · 2026 年3 月 23 日 00:39

给大模型服务器权限就是灾难，幻觉了乱跑命令咋办

ecc_ram_dan · 2026 年3 月 23 日 00:56

我的Agent检测到PG内存高直接给restart了正好在备份

oncall_nightmare · 2026 年3 月 23 日 01:21

说Prometheus的没错但搭建成本高啊这个五分钟出效果

fedora_frank · 2026 年3 月 23 日 04:52

我四十台内部开发环境在用替代了一个初级运维的日常

404_sleep_not_found · 2026 年3 月 23 日 05:09

加个命令频率检测一小时超一百条就撤Key防止发疯

opsdog · 2026 年3 月 23 日 06:33

@ipmi_ian 给大模型SSH权限确实有风险，但可以用只读权限+命令白名单来限制。ForceCommand配合authorized_keys的command选项，只允许执行指定的巡检命令。AI只能读系统状态不能执行修改操作，风险可控

secnerd · 2026 年3 月 23 日 09:49

@ecc_ram_dan Agent自作主张restart PG这种事太吓人了。根本解决方案：所有修改操作必须经过人工确认。发现问题→生成建议→推送通知→人确认→才执行。完全自动化的运维Agent在生产环境是灾难

kernel0 · 2026 年3 月 23 日 10:17

@fedora_frank 40台内部开发环境用这个确实合适。开发环境出了问题影响有限，而且日常巡检这种重复工作确实应该自动化。但到生产环境建议还是上正经的监控方案，Prometheus+Grafana成本没那么高

lazypd · 2026 年3 月 23 日 10:24

自动巡检太实用了

dami_geek · 2026 年3 月 23 日 23:29

大米极客表示这方案可行