OpenClaw怎么做短视频,OpenClaw做短视频方法

OpenClaw做短视频还是要先确定做视频的流程,然后加上一些技能和工具的帮助,下面就分享OpenClaw怎么做短视频的详细方法。

OpenClaw怎么做短视频:

1、整套流水线长什么样

传统做一条 60 秒视频号内容:

  • 写脚本:30 分钟
  • 录音/配音:20 分钟
  • 剪辑+字幕+动效:1-2 小时
  • 导出上传:10 分钟

总耗时:2-3 小时,还得会剪映或 PR 。

我现在的流程:

  • Agent 自动推送选题,我选一个:1 分钟
  • Agent 写旁白 → 克隆我的声音生成 TTS → 提取时间戳 → Remotion 渲染成片:约 10 分钟
  • 我看一遍,确认发布:2 分钟

总耗时:约 15 分钟。成本不到两毛钱。不需要会任何剪辑软件。

2、技术栈:四个关键零件

OpenClaw 是一个开源的 AI 助理框架,核心能力是让多个 AI Agent 协作。我的团队里有 6 个 Agent,各管一摊:

  • 墨媒(运营):负责选题推送和发布
  • 墨笔(创作):写脚本、调 TTS、编排场景、渲染视频
  • 墨影(设计):封面图和配图

视频制作主要是墨笔在干活。它收到选题后,一路跑完脚本→配音→渲染,全程无人值守。

Agent 之间怎么协作? OpenClaw 有个sessions_send机制,Agent 之间直接传消息。墨媒推选题给墨笔,墨笔做完发成片链接给墨媒,墨媒通知我确认。像一条流水线,每个工位各干各的。

零件二:Remotion — 用 React 写视频

这是整套方案最"反直觉"的部分。

Remotion 是一个 React 视频框架。你写 React 组件,它帮你渲染成 MP4。 没有时间轴,没有图层面板,视频就是代码。

为什么用代码做视频?因为可复用、可模板化、可自动化。

传统剪辑:每条视频从零开始拖素材。

Remotion:定义好模板,换数据就出新片。

我的视频模板叫"赛博线框批注体"——深色背景、大字排版、小墨(我的 AI 猫助手)线条画穿插批注。风格统一,辨识度高。

核心代码结构长这样:

// scenes-data.ts — 这是唯一需要改的文件
export const scenes: SceneData[] = [
  {
    start: 0.0,     // 开始时间(秒)
    end: 3.46,      // 结束时间(秒)
    type: 'title',  // 场景类型:决定动效
    title: '三家巨头\n同一天',
    xiaomo: 'peek',  // 小墨姿态
  },
  {
    start: 3.46,
    end: 5.90,
    type: 'pain',
    title: '微软说',
    subtitle: 'Copilot 已经能写掉\n90% 的代码',
    number: '90%',
    highlight: 'Copilot',
  },
  // ... 更多场景
];

每条新视频只需要改这一个文件。 场景类型决定动效——title用 glitch 闪现,emphasis用 slam 砸入,circle用猫爪画圈。动效和排版都是预设好的,换内容自动适配。

渲染一行命令:

npx remotion render WireframeVideo out/成片.mp4 --codec=h264

零件三:MiniMax 语音克隆 — 用我的声音说话

视频号的配音是我自己的声音,但不是我录的。

MiniMax 的 voice-clone 服务,用一段 30 秒的录音样本,克隆出一个可以说任何话的语音模型。生成速度快,一段 60 秒的旁白 3-5 秒出结果。

通过 fal.ai 的 API 调用,1.15 倍速,对话感很强。一条视频的 TTS 成本大概一毛钱。

零件四:Whisper — 时间戳精确对齐

TTS 生成的音频,需要知道每句话在第几秒说完,才能让 Remotion 的字幕精确对齐。

OpenAI 的 Whisper 模型(本地部署,免费)转录音频,输出逐句时间戳:

[  {"start": 0.0, "end": 3.46, "text": "三家巨头同一天说了一件事"},  {"start": 3.46, "end": 5.90, "text": "微软说Copilot已经能写掉90%的代码"},  ...]

这些时间戳直接灌进scenes-data.ts,每个场景的出场时间和旁白完美对齐。

3、完整流程:一条视频是怎么从 0 到 1 的

墨媒推选题(cron 每日 9:30)
    ↓ Telegram 推送5个选题
孟健选一个
    ↓ 选题确认
墨笔写旁白脚本(60秒,200字左右)
    ↓
MiniMax TTS 生成克隆语音
    ↓ 约¥0.1,3秒出结果
Whisper 提取逐句时间戳
    ↓ 本地运行,免费
墨笔编排 scenes-data.ts
    ↓ 按时间戳填场景类型+文案
Remotion 渲染 MP4
    ↓ h264编码,约2分钟
墨笔发成片给孟健
    ↓ Telegram 通知
孟健确认 → 墨媒发布

关键点:从"孟健选一个"到"成片发出来",中间全自动。 墨笔这个 Agent 收到选题后,自己写脚本、调 TTS、提时间戳、编场景、渲染视频、发通知。我只需要在 Telegram 里点一下确认。

整个过程大约 10 分钟。我的参与时间?选题 1 分钟,看成片 2 分钟。