今日,谷歌 DeepMind 正式对外发布了其迄今为止智能化程度最高的开源大模型家族——Gemma 4。在经历了超过 4 亿次下载的社区爆发后,新一代 Gemma 摆脱了以往开源模型的体型束缚与许可限制,不仅以令人瞩目的“推理模式(Thinking Mode)”和原生智能体工作流(Agentic Workflows)技惊四座,更令人意外地宣布全系采用极其宽松的 Apache 2.0 商业许可。 在“越大越好”的狂热逐渐降温的2026年,Gemma 4 向业界证明了一件事:极致的“单位参数智能(Intelligence-per-parameter)”才是推动 AI 普惠的真正钥匙。
跨越尺寸的碾压:四个量级的精准降维打击
据 Google DeepMind 研究副总裁 Clement Farabet 透露,Gemma 4 采用了与强大的 Gemini 3 同源的尖端架构。此次共推出四款不同尺寸的模型,旨在精准覆盖从智能物联网设备到企业级数据中心的全部硬件场景:
-
端侧双子星(E2B 与 E4B):针对手机、树莓派等移动和边缘设备彻底重构。这两款模型采用了创新的逐层嵌入(PLE)技术,推理时分别仅激活 20 亿和 40 亿的“有效参数”,却能实现完全离线、近乎零延迟的运行。更具突破性的是,它们在小体积下原生内置了音频和视觉处理能力,直接在终端设备上实现了自动语音识别(ASR)与翻译。
-
性能极客(26B A4B 混合专家模型):这款采用 MoE 架构的模型堪称效率奇迹。其总参数量虽达到 252 亿,但推理时仅激活 38 亿参数,使其运行速度几乎媲美轻量级模型,成为本地 IDE 编码助手和极速推理的理想选择。
-
旗舰基座(31B Dense):作为家族的性能巅峰,这款 307 亿参数的密集型模型在权威的 Arena AI 文本排行榜上直接空降全球开源模型第三名,甚至在诸多复杂测试中击败了体量是其 20 倍的巨型模型。
开启“深度思考”,多模态与长文本的双重进化
在核心能力上,Gemma 4 彻底告别了“单纯陪聊”的时代。 新模型家族全面引入了原生思考模式(Thinking Mode)。开发者只需在系统提示词中加入简单的 <|think|> 标签,模型便会在给出最终答案前,展现出缜密的逐步内部逻辑推演。这一改进使其在要求极高的 AIME 2026 数学推理基准测试中,得分从上一代 Gemma 3(27B)的 20.8% 飙升至惊人的 89.2%。 与此同时,Gemma 4 在长文本处理上显得游刃有余。即使是最小的移动端模型也配备了 128K 的超大上下文窗口,而 26B 和 31B 模型更是达到了 256K——这意味着开发者可以将整个代码库或几部数十万字的长篇巨著一次性“喂”给模型。 在多模态方面,全系模型支持混合输入文本与变分辨率、变长宽比的图像和长达一分钟的视频,无论是理解复杂的财务图表还是识别晦涩的手写笔记,都不在话下。
拥抱彻底的开放:Apache 2.0 激发数字主权
如果说强大的技术指标是 Gemma 4 的利刃,那么 Apache 2.0 许可证 则是其征服开发者生态的盾牌。 在过去的几年中,部分“开源”模型因附带严苛的商业条款而备受争议。Google DeepMind 此次听取了社区反馈,选择将控制权彻底交还给开发者。“Gemma 4 采用 Apache 2.0 许可证发布是一个巨大的里程碑,”相关负责人在发布文章中表示。这意味着全球企业和主权组织可以在不用担心底层协议限制的情况下,自由地微调、商业化并在云端或本地化部署他们的专属模型,真正掌握数据的绝对数字主权。 目前,Gemma 4 已在 Hugging Face、Kaggle 等平台开放权重下载,并实现了对 NVIDIA、AMD 甚至 Apple Silicon(MLX)等各类硬件的“首日即支持”。同时,Android 开发者今天就可以在 AI Core 开发者预览版中,利用端侧模型构建具有未来视野的智能体应用。 随着 Gemma 4 的发布,2026 年的开源大模型赛道无疑迎来了新的标杆。这场关于逻辑推理、本地化部署与真正开源的革命,才刚刚拉开序幕。

