开源一个用gpt image2做PPT的skill，效果很顶

backendmenglog · 2026 年5 月 1 日 02:06

话不多说，先看效果图

流程放下面，急着试的老哥可以直接去仓库： NyxTides/ppt-image-first: PPT image-first skill for Codex CLI

特点就几个：不用模板、个性化设计、流程自己能把控、随时可以插手改。

1.项目分析
agent会根据你的项目和需求做点分析，生成一个content_report.md，这步很快，主要就是把需求对齐一下。

2.生成预览
skill会把你的内容分成8个维度，然后挑几种最搭的风格，生成几套PPT预览图。不满意你就提要求，比如“基于C风格再弄几版”，它就重新给你来一轮，直到你点头。

3.反演
你选中喜欢的预览风格后，skill会去反推里面的风格、样式这些（因为生图有时候会有意外惊喜，你可能就喜欢它即兴发挥的部分）。反演完会跟你确认需求。

4.风格确立
这步会固定设计风格，生成风格锁和PPT分页摘要，防止后面跑偏。你确认了，就开始正式生图。

5.正式生图
你可以选每页PPT生成几张候选图。（其实大部分时候一张就够顶了，我上面展示的前两份PPT都是一次抽卡出来的）

6.挑喜欢的点复制（如果上一步只生成一份，这步自动跳过）
选你顺眼的点复制就行。

7.最终审稿
这步可以直接在界面上画线、写注释，然后点复制当前页结果或者复制按钮丢给agent。这样可以绕过PPT的写者锁，做精细化修改。

8.最终成稿
然后你就拿到一份高质量还特个性的PPT了。

核心就是靠gpt image2（别的生图模型也行，但效果可能差点），只要你接受它是图片型PPT就行。它也用图编辑的方式实现了可编辑性，可以框选、注释，模型收到后走image2的编辑接口就能定点改、局部改（具体生图和编辑方法skill里没限制，你可以用别的。我自己的实现是在本地搞了另一个skill，可以并发调生图和编辑，所有图一起出，速度很快）。

只有免费额度又想试的老哥，可以看看社区开源的网页生图额度反代项目。

NyxTides/ppt-image-first: PPT image-first skill for Codex CLI

apixiework · 2026 年5 月 1 日 02:24

这东西就那样，看起来花哨而已。

devrel_diana · 2026 年5 月 1 日 02:28

小白问一下，是不是我本地得先装好那个Codex CLI才能用啊？我不太确定这些依赖关系，怕搞了半天跑不起来。

admin2jianghub · 2026 年5 月 1 日 03:26

我只关心第7步那个“绕过PPT写者锁”具体怎么操作？是在哪个界面画线，是本地一个GUI还是网页工具？代码仓库里好像没看到前端部分。

fullstack_fred · 2026 年5 月 1 日 03:48

操作很简单：1. 克隆仓库；2. 按照README配环境变量和API密钥；3. 准备好你的项目需求文档；4. 运行主脚本。跟着步骤走就行。

merge_conflict_mike · 2026 年5 月 1 日 04:58

之前自己折腾过用MJ做PPT背景图，但排版和内容匹配是个大问题。你这个流程里的“反演”和“风格锁”听着挺有意思，感觉是把AI即兴发挥的“意外”给固化下来再利用，思路很聪明啊。不过对于复杂逻辑图表多的技术汇报，纯图片型PPT会不会不方便后期更新数据？楼主考虑过集成vega-lite这类图表生成吗？

infrazhuio · 2026 年5 月 1 日 06:08

马克一下，周末有空了试试。

codelicode · 2026 年5 月 1 日 07:24

没用过别碰，依赖和环境配置够新手喝一壶的。

zenchen · 2026 年5 月 1 日 08:52

又来这种帖子了，开源个skill还得绑着自家CLI，美其名曰“流程自己能把控”，实际上不就是锁死在你们工具链里了吗？真开源就把核心的提示词工程和风格反推逻辑单独拆出来，让大家自己选生图后端。

apihego · 2026 年5 月 1 日 10:04

我试过类似思路，但没做这么细的流程控制。我的经验是，生图模型对文字排版和字号极其不敏感，经常把标题文字生成得歪七扭八或者大小不一。看楼主的效果图倒是挺工整，是用了什么后处理技巧，还是在提示词里加了特别重的约束？另外“8个维度”具体指哪些？是色彩、版式这些吗？如果能自定义这几个维度的权重就更好了。