最近有人在实验让 AI Agent 通过手机端执行自动化任务,比如自动发抖音、评论小红书、操作微信等。聊聊这个方向的可行性。
技术方案
目前主要有两种实现方式:
方案一:UIAutomator + 大模型
- 用 Android 的 UIAutomator 框架模拟屏幕操作
- 大模型负责理解自然语言指令并拆解为操作步骤
- 优点:通用性强,理论上能操作任何 App
- 缺点:依赖截图识别,Token 消耗大
方案二:API/接口直连
- 直接调用 App 的 API 接口
- 优点:稳定、快速、省 Token
- 缺点:很多 App 没有公开 API,逆向风险高
实际测试结果
在抖音和小红书上测试了发动态和评论功能:
- 简单操作(发文字评论)成功率较高
- 复杂操作(图片编辑、视频发布)经常翻车
- 每条评论的 Token 消耗取决于是否需要截图,纯文本指令消耗较低
风险提醒
- 平台封控 - 各大平台都有反自动化检测,频繁操作很容易触发风控
- 账号安全 - 把手机控制权交给 AI,万一执行了错误操作后果很严重
- 隐私泄露 - AI 可以看到你手机上的所有内容,包括聊天记录、通知等
建议在备用机上测试,主力机千万别冒这个险。
大家有在手机端跑 AI 自动化的经验吗?