小米 MiMo 官网注册和使用全流程，手把手教你跑起来

codecraft_wei · 2026 年4 月 3 日 14:33

发现很多人对 MiMo 感兴趣但不知道怎么开始用，写个保姆级教程。

第一步：找到 MiMo 官网

小米 MiMo 相关资源目前主要在这几个地方：

GitHub：小米在 GitHub 上开源了 MiMo-7B 的模型权重和技术文档，仓库名是 XiaomiMiMo（以实际为准）
HuggingFace：模型权重也上传到了 HuggingFace Hub，方便直接下载和推理
小米 AI 开放平台：提供 API 接口服务，注册后可以通过 API 调用模型

建议先从 API 方式入手，门槛最低。

第二步：注册账号

访问小米 AI 开放平台官网
使用小米账号登录（如果没有需要先注册小米账号）
进入开发者控制台，完成实名认证
创建应用，获取 API Key

整个注册流程大概 5-10 分钟能搞定。实名认证是必须的，这是国内 AI 平台的通行要求。

第三步：获取 API Key

在开发者控制台创建一个新应用后，系统会生成一对 API Key（Access Key + Secret Key）。

注意：

API Key 只会显示一次，创建后立即保存
不要把 Key 写在代码里提交到 Git
建议用环境变量管理

第四步：调用 API

一个最简单的 Python 调用示例：

import requests

url = "https://api.xiaomi.com/mimo/v1/chat/completions"
headers = {
    "Authorization": "Bearer YOUR_API_KEY",
    "Content-Type": "application/json"
}
payload = {
    "model": "mimo-7b",
    "messages": [
        {"role": "user", "content": "用 Python 写一个快速排序"}
    ],
    "max_tokens": 1024
}

response = requests.post(url, json=payload, headers=headers)
print(response.json())

API 接口风格和 OpenAI 的 Chat Completions 基本一致，如果你用过 OpenAI 的 API，上手几乎没有学习成本。

第五步：本地部署（可选）

如果你有 GPU 资源，也可以本地跑：

从 HuggingFace 下载模型权重
安装 transformers、torch 等依赖
用 vLLM 或者 Ollama 启动推理服务

硬件要求：MiMo-7B 用 FP16 大概需要 14-16G 显存，量化到 INT4 大概 4-6G 就能跑。家里有张 RTX 3090/4090 就完全够了。

常见问题

Q：注册需要付费吗？
A：注册免费，新用户有免费 Token 额度。

Q：API 响应速度怎么样？
A：7B 模型推理速度本身就快，官方 API 延迟在毫秒级，体验比大参数模型好不少。

Q：支持流式输出吗？
A：支持。在请求参数里加 "stream": true 就行。

Q：有 SDK 吗？
A：官方提供 Python SDK，也兼容 OpenAI 的 SDK 格式。

以上就是完整的入门流程。从注册到跑通第一个请求，快的话十分钟就能搞定。有问题留言讨论

k8szhoux · 2026 年4 月 3 日 14:39

教程太及时了！刚注册好准备试试，从注册到拿到 API Key 大概用了 8 分钟。

token_burner_9000 · 2026 年4 月 3 日 14:47

补充一个本地部署的坑。用 Ollama 跑 MiMo-7B 的时候，默认配置下显存占用比预期高，3060 12G 跑 FP16 直接爆了。后来换成 GGUF 格式的 Q4_K_M 量化版本才跑起来，效果也还行，比 FP16 差一点但日常用够了。

sre_cao_x · 2026 年4 月 3 日 14:54

作为一个被各种 AI 平台注册流程折腾过的人，小米这个注册体验算中等偏上了。至少没有让我填一堆乱七八糟的信息，也没有搞什么邀请码制度。不过实名认证这步，如果没有小米账号的话要先注册小米账号再做认证，相当于多了一步。建议小米优化一下，支持直接用手机号注册开发者账号，不要强制绑定小米账号体系。另外 API Key 的管理界面比较简陋，连个用量统计图表都没有，希望后面能加上。

mempool_mike · 2026 年4 月 3 日 14:58

楼主的代码示例能跑通吗？我照着写了一遍，返回的是 401 错误，是不是 API 地址变了？

devxsugo · 2026 年4 月 3 日 15:01

从技术架构的角度说说本地部署。如果你们团队有多人需要用 MiMo，建议不要每个人本地跑一个实例，而是搭一个统一的推理服务。用 vLLM 起一个服务端，支持 OpenAI 兼容的 API 格式，团队内部调用就行。这样不仅能共享 GPU 资源，还方便做统一的访问控制和用量统计。我们内部用一张 A100 40G 跑 MiMo-7B FP16，PagedAttention 开起来之后并发处理能力还不错，十几个人同时用完全没问题。如果 GPU 资源紧张，也可以考虑用 TensorRT-LLM 做优化，推理速度能再提升 30-50%。

makershi · 2026 年4 月 3 日 15:09

感谢分享！已经跑通了第一个请求，MiMo 写的快速排序代码比我写得好看多了

daniu_js · 2026 年4 月 3 日 17:17

新手指南写得挺友好的

chunfeng66 · 2026 年4 月 3 日 17:47

查重费居然比opus写论文还贵，离谱

baozi_pm · 2026 年4 月 3 日 17:50

知网查重一次188，opus跑全文也就几刀