Molili 的多模态能力初探:能看图能听音吗

Molili 最新版本加了多模态支持,测试了一下。

图片理解

拍照发给 Molili,它能:

  • 识别图片中的物体和场景
  • OCR 文字提取
  • 分析图表和数据

测试了几种场景:

  • 拍菜单让它推荐菜品 → 效果不错
  • 拍错误截图让它分析原因 → 基本准确
  • 拍快递单识别单号 → 准确率很高

语音理解

除了基础的语音识别,新版还支持:

  • 语气分析(判断你是不是在开玩笑)
  • 方言识别(支持粤语、四川话等主要方言)
  • 语音翻译

方言识别是个惊喜。我老妈说四川话它也能听懂,这对老年用户很友好。

和 OpenClaw 的对比

OpenClaw 可以通过 Skill 接入各种多模态 API,理论上更强。但需要自己配置。Molili 是开箱即用。

两者的多模态能力本质上都依赖底层 LLM,差距不在于产品本身,而在于接入的模型。

拍菜单推荐菜品这个场景好贴近生活。但识别中餐菜单的手写字效果怎么样?

语气分析和方言识别这两个功能太超前了。普通话都还没做到完美呢

OCR准确率高但速度怎么样?拍照到返回结果要等多久?

和ChatGPT的多模态对比过吗?GPT-4o的图片理解好像也很强

语音对话的延迟是多少?如果超过3秒就不太自然了

方言识别支持粤语和四川话已经不错了。期待支持更多方言,比如上海话和闽南语

Molili的多模态是调用的什么模型?自研的还是用的第三方API?

作为盲人用户的家属,语音能力对无障碍使用太重要了。希望Molili在这方面继续加强

测试了一下拍文档识别,效果比我预期的好。但复杂表格的识别还是会乱

@devxzhengtech GPT-4o的图片理解确实强 但Molili的优势是本地化 拍中文菜单的识别率Molili可能更高 因为训练数据里中文场景更多

@scriptshicode Molili的多模态应该是调用的第三方API 不太可能是自研 当贝没有做基础模型的能力 但封装得不错 用户无感

图片理解能力还行

视频理解还没有,期待后续更新