小米 MiMo 官网注册和使用全流程,手把手教你跑起来

发现很多人对 MiMo 感兴趣但不知道怎么开始用,写个保姆级教程。

第一步:找到 MiMo 官网

小米 MiMo 相关资源目前主要在这几个地方:

  • GitHub:小米在 GitHub 上开源了 MiMo-7B 的模型权重和技术文档,仓库名是 XiaomiMiMo(以实际为准)
  • HuggingFace:模型权重也上传到了 HuggingFace Hub,方便直接下载和推理
  • 小米 AI 开放平台:提供 API 接口服务,注册后可以通过 API 调用模型

建议先从 API 方式入手,门槛最低。

第二步:注册账号

  1. 访问小米 AI 开放平台官网
  2. 使用小米账号登录(如果没有需要先注册小米账号)
  3. 进入开发者控制台,完成实名认证
  4. 创建应用,获取 API Key

整个注册流程大概 5-10 分钟能搞定。实名认证是必须的,这是国内 AI 平台的通行要求。

第三步:获取 API Key

在开发者控制台创建一个新应用后,系统会生成一对 API Key(Access Key + Secret Key)。

注意:

  • API Key 只会显示一次,创建后立即保存
  • 不要把 Key 写在代码里提交到 Git
  • 建议用环境变量管理

第四步:调用 API

一个最简单的 Python 调用示例:

import requests

url = "https://api.xiaomi.com/mimo/v1/chat/completions"
headers = {
    "Authorization": "Bearer YOUR_API_KEY",
    "Content-Type": "application/json"
}
payload = {
    "model": "mimo-7b",
    "messages": [
        {"role": "user", "content": "用 Python 写一个快速排序"}
    ],
    "max_tokens": 1024
}

response = requests.post(url, json=payload, headers=headers)
print(response.json())

API 接口风格和 OpenAI 的 Chat Completions 基本一致,如果你用过 OpenAI 的 API,上手几乎没有学习成本。

第五步:本地部署(可选)

如果你有 GPU 资源,也可以本地跑:

  1. 从 HuggingFace 下载模型权重
  2. 安装 transformers、torch 等依赖
  3. 用 vLLM 或者 Ollama 启动推理服务

硬件要求:MiMo-7B 用 FP16 大概需要 14-16G 显存,量化到 INT4 大概 4-6G 就能跑。家里有张 RTX 3090/4090 就完全够了。

常见问题

Q:注册需要付费吗?
A:注册免费,新用户有免费 Token 额度。

Q:API 响应速度怎么样?
A:7B 模型推理速度本身就快,官方 API 延迟在毫秒级,体验比大参数模型好不少。

Q:支持流式输出吗?
A:支持。在请求参数里加 "stream": true 就行。

Q:有 SDK 吗?
A:官方提供 Python SDK,也兼容 OpenAI 的 SDK 格式。

以上就是完整的入门流程。从注册到跑通第一个请求,快的话十分钟就能搞定。有问题留言讨论 :point_down:

4 个赞

教程太及时了!刚注册好准备试试,从注册到拿到 API Key 大概用了 8 分钟。

1 个赞

补充一个本地部署的坑。用 Ollama 跑 MiMo-7B 的时候,默认配置下显存占用比预期高,3060 12G 跑 FP16 直接爆了。后来换成 GGUF 格式的 Q4_K_M 量化版本才跑起来,效果也还行,比 FP16 差一点但日常用够了。

1 个赞

作为一个被各种 AI 平台注册流程折腾过的人,小米这个注册体验算中等偏上了。至少没有让我填一堆乱七八糟的信息,也没有搞什么邀请码制度。不过实名认证这步,如果没有小米账号的话要先注册小米账号再做认证,相当于多了一步。建议小米优化一下,支持直接用手机号注册开发者账号,不要强制绑定小米账号体系。另外 API Key 的管理界面比较简陋,连个用量统计图表都没有,希望后面能加上。

2 个赞

楼主的代码示例能跑通吗?我照着写了一遍,返回的是 401 错误,是不是 API 地址变了?

2 个赞

从技术架构的角度说说本地部署。如果你们团队有多人需要用 MiMo,建议不要每个人本地跑一个实例,而是搭一个统一的推理服务。用 vLLM 起一个服务端,支持 OpenAI 兼容的 API 格式,团队内部调用就行。这样不仅能共享 GPU 资源,还方便做统一的访问控制和用量统计。我们内部用一张 A100 40G 跑 MiMo-7B FP16,PagedAttention 开起来之后并发处理能力还不错,十几个人同时用完全没问题。如果 GPU 资源紧张,也可以考虑用 TensorRT-LLM 做优化,推理速度能再提升 30-50%。

3 个赞

感谢分享!已经跑通了第一个请求,MiMo 写的快速排序代码比我写得好看多了 :joy:

3 个赞

新手指南写得挺友好的

查重费居然比opus写论文还贵,离谱

知网查重一次188,opus跑全文也就几刀