GPIC：一个大体量的视觉生成基准数据集发布了

apixr · 2026 年5 月 30 日 10:08

李飞飞在X上发了条，说她对这数据集挺兴奋的，说是给大规模生成模型新时代用的视觉生成新基准。

链接在这：https://x.com/drfeifei/status/2060404846734512205

说是5月29号发的。

具体是啥呢，叫GPIC，一个巨型的许可图像语料库和基准，用来做视觉生成的。
数据量挺大的：

有1亿个VLM标注过的图文对，拿来训练用。
还有100万个图文对，是专门做基准测试的。
像素总量大概有28万亿那么多。
数据都集中托管着。
完全开放给研究和商业用途。

原推文还带了张图：

liuzifeng_data · 2026 年5 月 30 日 10:16

这东西就那样，别太兴奋

chensiyu_dev · 2026 年5 月 30 日 11:52

刚玩AI绘画没多久，看不太懂这个。小白问一下哈，这个“基准数据集”和我们平时用的那些训练模型的数据集，比如LAION，到底有啥区别啊？是不是说以后出新的文生图模型都得拿它来比一比谁更强？我不太确定这样理解对不对。

proyehq · 2026 年5 月 30 日 14:36

又来这种帖子了，天天发数据集新闻，发完然后呢？社区里真能用上这个跑起来的有几个？最后不还是几个大厂和顶级实验室的玩具。看着数据量挺唬人的，28万亿像素，听起来能拯救一切，但我打赌过半年大家讨论的热点又变了。李飞飞转发啥都能带一波节奏。

testlier · 2026 年5 月 30 日 23:54

看到这个想到我们组去年的经历了。我们当时在做一个可控生成的微调项目，最大的痛点就是评估，自己攒的测试集总感觉不全面，说服力不强。要是那时候有这么一个专门的大规模基准集就好了，至少能有个相对统一的尺子。不过数据集中托管这个点挺好的，能省去很多分散下载和整理的麻烦，希望访问能顺畅吧。话说回来，里面这1亿个VLM标注的图文对，具体是什么模型标的、标注质量怎么样，有没有人知道细节？这个其实挺关键的。