开源一个用gpt image2做PPT的skill,效果很顶

话不多说,先看效果图

流程放下面,急着试的老哥可以直接去仓库: NyxTides/ppt-image-first: PPT image-first skill for Codex CLI

特点就几个:不用模板、个性化设计、流程自己能把控、随时可以插手改。

1.项目分析
agent会根据你的项目和需求做点分析,生成一个content_report.md,这步很快,主要就是把需求对齐一下。

2.生成预览
skill会把你的内容分成8个维度,然后挑几种最搭的风格,生成几套PPT预览图。不满意你就提要求,比如“基于C风格再弄几版”,它就重新给你来一轮,直到你点头。

3.反演
你选中喜欢的预览风格后,skill会去反推里面的风格、样式这些(因为生图有时候会有意外惊喜,你可能就喜欢它即兴发挥的部分)。反演完会跟你确认需求。

4.风格确立
这步会固定设计风格,生成风格锁和PPT分页摘要,防止后面跑偏。你确认了,就开始正式生图。

5.正式生图
你可以选每页PPT生成几张候选图。(其实大部分时候一张就够顶了,我上面展示的前两份PPT都是一次抽卡出来的)

6.挑喜欢的点复制(如果上一步只生成一份,这步自动跳过)
选你顺眼的点复制就行。

7.最终审稿
这步可以直接在界面上画线、写注释,然后点复制当前页结果或者复制按钮丢给agent。这样可以绕过PPT的写者锁,做精细化修改。

8.最终成稿
然后你就拿到一份高质量还特个性的PPT了。

核心就是靠gpt image2(别的生图模型也行,但效果可能差点),只要你接受它是图片型PPT就行。它也用图编辑的方式实现了可编辑性,可以框选、注释,模型收到后走image2的编辑接口就能定点改、局部改(具体生图和编辑方法skill里没限制,你可以用别的。我自己的实现是在本地搞了另一个skill,可以并发调生图和编辑,所有图一起出,速度很快)。

只有免费额度又想试的老哥,可以看看社区开源的网页生图额度反代项目。

NyxTides/ppt-image-first: PPT image-first skill for Codex CLI

这东西就那样,看起来花哨而已。

小白问一下,是不是我本地得先装好那个Codex CLI才能用啊?我不太确定这些依赖关系,怕搞了半天跑不起来。

我只关心第7步那个“绕过PPT写者锁”具体怎么操作?是在哪个界面画线,是本地一个GUI还是网页工具?代码仓库里好像没看到前端部分。

操作很简单:1. 克隆仓库;2. 按照README配环境变量和API密钥;3. 准备好你的项目需求文档;4. 运行主脚本。跟着步骤走就行。

之前自己折腾过用MJ做PPT背景图,但排版和内容匹配是个大问题。你这个流程里的“反演”和“风格锁”听着挺有意思,感觉是把AI即兴发挥的“意外”给固化下来再利用,思路很聪明啊。不过对于复杂逻辑图表多的技术汇报,纯图片型PPT会不会不方便后期更新数据?楼主考虑过集成vega-lite这类图表生成吗?

马克一下,周末有空了试试。

没用过别碰,依赖和环境配置够新手喝一壶的。

又来这种帖子了,开源个skill还得绑着自家CLI,美其名曰“流程自己能把控”,实际上不就是锁死在你们工具链里了吗?真开源就把核心的提示词工程和风格反推逻辑单独拆出来,让大家自己选生图后端。

我试过类似思路,但没做这么细的流程控制。我的经验是,生图模型对文字排版和字号极其不敏感,经常把标题文字生成得歪七扭八或者大小不一。看楼主的效果图倒是挺工整,是用了什么后处理技巧,还是在提示词里加了特别重的约束?另外“8个维度”具体指哪些?是色彩、版式这些吗?如果能自定义这几个维度的权重就更好了。