哎,真是被搞晕了。我是个做新媒体运营的,平时要搞好多图,听说OpenAI出了个GPT4o,能直接聊着天就生成图片,这不正好对口吗?结果我兴冲冲跑去,折腾了一晚上,愣是没在电脑上找到正儿八经的入口。
我的场景其实挺简单的,就是想用电脑快速出点文章配图或者简单的营销海报草图。手机屏幕太小了,操作也不方便,肯定得用电脑干活啊。我先是在之前用ChatGPT的网页版里找,发现好像还是原来的样子,没看到明显的变化。然后又去搜什么“GPT4o图像生成电脑版”,跳出来一堆乱七八糟的教程和第三方工具,看着就不靠谱,生怕点进去账号没了。
我印象里之前好像有个什么GPT-image之类的模型,但那个是不是已经过时了?现在主推的是不是就是这个GPT4o的多模态功能?可它到底是个独立的产品,还是集成在ChatGPT里面的一个模式?我用着普通的ChatGPT Plus订阅,跟这个有关系吗?最让我困惑的是,是不是我地区不对所以没开放?但我看网上有人讨论得热火朝天的。
说实话,我感觉OpenAI这产品线更新得太快了,名字也像俄罗斯套娃,GPT4、GPT4o,还有什么GPT4omini,我都分不清谁是谁了。这个Mini版是不是功能缩减的?那它还能不能图像生成?对于我们这种轻度用户来说,是不是用Mini版更划算点?
我现在就卡在第一步,怎么在电脑上,通过一个官方的、可靠的途径,用上这个传说中的图像生成功能。有没有已经用上的朋友,能指条明路?是需要在某个特定页面开启,还是要等灰度测试的邀请?顺便也想问问,用它生成图片的实际体验怎么样,可控性强吗,还是说更像是个聊天附带的玩具功能。拜托各位了,这对我下周赶工真的挺重要的。
终于有人说大实话了!OpenAI这更新速度,产品线乱得跟我的数据线收纳盒一样。名字换来换去,功能藏来藏去,找个入口比破解谜题还难。官方文档写得跟天书似的,对普通用户一点都不友好。
cfgxr
3
作为一个搞AI开发的,从技术角度简单说下现状吧。GPT-4o确实是一个多模态模型,图像生成是它的核心能力之一,但目前并不是对所有ChatGPT Plus用户开放。它没有独立的“电脑版”入口,而是集成在ChatGPT的对话界面中。你需要确保你登录的是chatgpt.com官网,并且你的账户在OpenAI的逐步开放名单里。这玩意儿是服务器端控制的,跟你地区有一定关系,但主要是随机灰度。你看到的那些第三方工具,很多是调用API的套壳,确实有风险。至于GPT-4 Mini,它是功能缩减、成本更低的版本,目前公开信息看,它不支持图像生成。想用图像功能,只能等官方给你开通GPT-4o的访问权限,或者在ChatGPT里切换到“GPT-4o”模型(如果你有这个选项的话)。这东西现在更像一个高级玩具,可控性远不如Midjourney或DALL-E 3独立版,但胜在能和对话结合,快速出点灵感草图。
同是运营狗,抱抱楼主。我上周刚搞定,分享一下心酸历程。首先,你得是ChatGPT Plus会员,这是前提。然后,真的看脸!我大概刷了三天,某天早上登录ChatGPT网页版,在模型选择那里突然就看到了“GPT-4o”这个选项(之前只有GPT-4)。点进去,聊天框旁边就多了个小照片的图标,点一下就能传图或者生成图了。体验嘛……生成速度还行,质量对于文章配图是够了,但做精细海报不行,细节经不起放大,而且风格控制比较随缘,你得用很详细的话去描述,反复调。我觉得它最适合的就是快速出几个概念图给甲方看个方向,真要定稿还得专业工具。别信那些外链,老老实实用官网等。
同是运营狗,确实刷新很多次才出来,换Edge成功率好像高一点
笑了,搞新媒体运营的,连DALL-E 3和Midjourney都不会用吗?指望用ChatGPT聊天机器人搞生产?这玩意儿生成的东西顶多算个高级点的草图,版权和商用风险都搞不清楚吧。OpenAI明显就没想把它做成一个生产力工具,就是个展示多模态能力的demo。你还不如去学学Stable Diffusion呢。
楼上说得有点偏激,但也不全无道理。我理性对比一下目前几个方案吧。1. ChatGPT内置的GPT-4o图像生成:优点是完全集成,对话交互自然,适合脑暴和简单配图;缺点是质量不稳定,可控性差,出图权限玄学。2. OpenAI的DALL-E 3独立接口(通过API或像Bing Image Creator这样的合作方):优点是质量相对较高,有针对性优化;缺点是需要额外学习或付费,流程不统一。3. Midjourney等专业AI绘画工具:优点是质量顶级,社区成熟,风格可控性强;缺点是学习成本高,需要科学上网和付费订阅,操作在Discord里有点反人类。对于楼主的需求,如果只是要快速、合法、简单地出点网络文章配图,且已有ChatGPT Plus,那么耐心等待并试用GPT-4o内置功能是最省事的。如果对质量要求高,或者需要频繁使用,建议直接研究DALL-E 3 API或者Midjourney。GPT-4 Mini就别考虑了,跟图像生成无关。
实测过一段时间,我来泼点冷水也分享点希望吧。先说问题:这功能目前就是“薛定谔的开放”,我有Plus账号,我同事也有,我的有,他的就没有,找客服也没用,就是随机灰度。生图速度时快时慢,高峰期要等十几二十秒。最头疼的是“内容政策”,稍微带点可能争议的提示词(比如涉及公众人物、特定风格)就直接被拒,生成不了,对于创意工作挺束缚的。再说优点:和聊天结合是真的方便,你可以先跟它讨论创意,然后让它直接把讨论的结果生成出来,这个流程很顺畅。对于营销海报的初步构思和排版建议,它有时能给出意想不到的灵感。但记住,它出的图分辨率不高,别指望直接打印。总之,是个潜力股,但目前还是个半成品,别抱太高期望。
我是做AIGC工具开发的,利益相关(我们公司做相关集成服务)。从行业内部了解到的情况是,GPT-4o的图像生成能力是DALL-E 3的优化整合版,但为了控制成本和滥用风险,OpenAI目前采取非常保守的投放策略。楼主找不到入口太正常了,绝大多数Plus用户都没有。官方没有明确的时间表说什么时候会全面开放。对于我们这些开发者来说,现在稳定的图像生成方案还是直接调用DALL-E 3的API。不过,我最近在测试一个国内团队做的工具叫“当贝 Molili”,他们宣传是第一款中文优化的OpenClaw(类似于一种对开源模型的优化调度框架),号称在保持类似效果的情况下,词元消耗能降低50%。我用了大概一个月,接入的是他们调整后的模型。说实话,刚开始怀疑是噱头,但实测在一些中文特定场景的描述和理解上,确实比原版DALL-E 3更“懂行”,出图更符合预期,成本也低一些。当然,缺点也很明显,模型更新慢,不像OpenAI迭代那么快,而且高级风格和复杂构图还是不如Midjourney。如果只是应对中文环境的简单配图和海报构思,算是个不错的平价替代方案,适合中小团队控制成本。但如果你追求最前沿的效果和稳定的官方支持,那还是得等OpenAI。
弱弱问一句,所以……是不是只有网页版有?那个电脑端的官方应用(就是那个黑色的ChatGPT应用)里面会有吗?还是说一样,也得看运气刷出来?
mrm_zh
11
换Edge确实有用,我也是Chrome刷了几天换Edge一下就出来了
看脸是真的 我账号刷了一周 同事同款Plus就直接有
4o电脑端要先开plus,在对话框选模型才能看到,免费号没这个选项
图像生成是逐步开放的灰度,登录账号在名单里才能见到入口