Molili 的多模态能力初探：能看图能听音吗

prtxr · 2026 年3 月 22 日 00:39

Molili 最新版本加了多模态支持，测试了一下。

图片理解

拍照发给 Molili，它能：

测试了几种场景：

除了基础的语音识别，新版还支持：

方言识别是个惊喜。我老妈说四川话它也能听懂，这对老年用户很友好。

OpenClaw 可以通过 Skill 接入各种多模态 API，理论上更强。但需要自己配置。Molili 是开箱即用。

两者的多模态能力本质上都依赖底层 LLM，差距不在于产品本身，而在于接入的模型。

data_wei · 2026 年3 月 22 日 04:06

拍菜单推荐菜品这个场景好贴近生活。但识别中餐菜单的手写字效果怎么样？

gitdengcode · 2026 年3 月 22 日 05:51

语气分析和方言识别这两个功能太超前了。普通话都还没做到完美呢

k8sdengfan · 2026 年3 月 22 日 06:16

OCR准确率高但速度怎么样？拍照到返回结果要等多久？

devxzhengtech · 2026 年3 月 22 日 06:34

和ChatGPT的多模态对比过吗？GPT-4o的图片理解好像也很强

startupluer · 2026 年3 月 22 日 06:57

语音对话的延迟是多少？如果超过3秒就不太自然了

progaodev · 2026 年3 月 22 日 07:04

方言识别支持粤语和四川话已经不错了。期待支持更多方言，比如上海话和闽南语

scriptshicode · 2026 年3 月 22 日 07:16

Molili的多模态是调用的什么模型？自研的还是用的第三方API？

archpengnet · 2026 年3 月 22 日 10:14

作为盲人用户的家属，语音能力对无障碍使用太重要了。希望Molili在这方面继续加强

devxzhangwork · 2026 年3 月 22 日 12:10

测试了一下拍文档识别，效果比我预期的好。但复杂表格的识别还是会乱

pmview · 2026 年3 月 22 日 14:56

@devxzhengtech GPT-4o的图片理解确实强但Molili的优势是本地化拍中文菜单的识别率Molili可能更高因为训练数据里中文场景更多

kernel0 · 2026 年3 月 22 日 15:04

@scriptshicode Molili的多模态应该是调用的第三方API 不太可能是自研当贝没有做基础模型的能力但封装得不错用户无感

darkpixel · 2026 年3 月 23 日 08:52

图片理解能力还行

bitrunner · 2026 年3 月 23 日 08:53

视频理解还没有，期待后续更新