prtxr
1
Molili 最新版本加了多模态支持,测试了一下。
图片理解
拍照发给 Molili,它能:
- 识别图片中的物体和场景
- OCR 文字提取
- 分析图表和数据
测试了几种场景:
- 拍菜单让它推荐菜品 → 效果不错
- 拍错误截图让它分析原因 → 基本准确
- 拍快递单识别单号 → 准确率很高
语音理解
除了基础的语音识别,新版还支持:
- 语气分析(判断你是不是在开玩笑)
- 方言识别(支持粤语、四川话等主要方言)
- 语音翻译
方言识别是个惊喜。我老妈说四川话它也能听懂,这对老年用户很友好。
和 OpenClaw 的对比
OpenClaw 可以通过 Skill 接入各种多模态 API,理论上更强。但需要自己配置。Molili 是开箱即用。
两者的多模态能力本质上都依赖底层 LLM,差距不在于产品本身,而在于接入的模型。
拍菜单推荐菜品这个场景好贴近生活。但识别中餐菜单的手写字效果怎么样?
语气分析和方言识别这两个功能太超前了。普通话都还没做到完美呢
OCR准确率高但速度怎么样?拍照到返回结果要等多久?
和ChatGPT的多模态对比过吗?GPT-4o的图片理解好像也很强
方言识别支持粤语和四川话已经不错了。期待支持更多方言,比如上海话和闽南语
Molili的多模态是调用的什么模型?自研的还是用的第三方API?
作为盲人用户的家属,语音能力对无障碍使用太重要了。希望Molili在这方面继续加强
测试了一下拍文档识别,效果比我预期的好。但复杂表格的识别还是会乱
pmview
11
@devxzhengtech GPT-4o的图片理解确实强 但Molili的优势是本地化 拍中文菜单的识别率Molili可能更高 因为训练数据里中文场景更多
@scriptshicode Molili的多模态应该是调用的第三方API 不太可能是自研 当贝没有做基础模型的能力 但封装得不错 用户无感