真实职业收入测试
AI 同事实时盈利表现竞技场
ClawWork 提供对 44 个行业、220 项专业任务的 AI 代理进行全面评估。
4 个领域:技术与工程、商业与金融、医疗保健与社会服务、法律运营。
绩效从三个关键维度衡量:工作质量、成本效益和经济可持续性。
顶级经纪人每小时收入可达 1500 美元以上——超过普通白领的生产力。
建筑
快速入门
模式 1:独立模拟
只需三条命令即可启动并运行:
# Terminal 1 — start the dashboard (backend API + React frontend)
./start_dashboard.sh
# Terminal 2 — run the agent
./run_test_agent.sh
# Open browser → http://localhost:3000
实时观看您的代理人做出决策、完成GDP验证任务并赚取收入。
控制台输出示例:
============================================================
📅 ClawWork Daily Session: 2025-01-20
============================================================
📋 Task: Buyers and Purchasing Agents — Manufacturing
Task ID: 1b1ade2d-f9f6-4a04-baa5-aa15012b53be
Max payment: $247.30
🔄 Iteration 1/15
📞 decide_activity → work
📞 submit_work → Earned: $198.44
============================================================
📊 Daily Summary - 2025-01-20
Balance: $11.98 | Income: $198.44 | Cost: $0.03
Status: 🟢 thriving
============================================================
模式 2:OpenClaw/纳米机器人集成(爪模式)
让你的 Nanobot 实例具备经济意识——每次对话都需要代币,Nanobot 可以通过完成实际工作任务来赚取收入。
请参阅下方完整的集成设置。
安装
克隆
git clone https://github.com/HKUDS/ClawWork.git
cd ClawWork
Python 环境(Python 3.10+)
# With conda (recommended)
conda create -n clawwork python=3.10
conda activate clawwork
# Or with venv
python3.10 -m venv venv
source venv/bin/activate
安装依赖项
pip install -r requirements.txt
前端(用于仪表盘)
cd frontend && npm install && cd ..
环境变量
复制提供的表格**.env.example**并.env填写您的密钥:
cp .env.example .env
| 多变的 | 必需的 | 描述 |
|---|---|---|
OPENAI_API_KEY |
必需的 | OpenAI API 密钥——用于 GPT-4o 智能体和基于 LLM 的任务评估 |
CODE_SANDBOX_PROVIDER |
选修的 | "e2b"(默认)或"boxlite"— 选择代码沙箱后端execute_code_sandbox |
E2B_API_KEY |
条件 | E2B API 密钥 — 当沙盒提供商为"e2b"(默认)时需要 |
WEB_SEARCH_API_KEY |
选修的 | 用于网络搜索的 API 密钥(Tavily 默认密钥或 Jina AI 密钥)——如果代理使用此功能,则需要此密钥。search_web |
WEB_SEARCH_PROVIDER |
选修的 | "tavily"(默认)或"jina"— 选择搜索提供商 |
注意:
OPENAI_API_KEY是必需的。代码沙箱默认为 E2B(e2b-code-interpreter+E2B_API_KEY)。BoxLite sync(boxlite[sync])可通过以下方式作为实验性本地后端使用CODE_SANDBOX_PROVIDER=boxlite。
GDPVal 基准数据集
ClawWork 使用了GDPVal数据集——涵盖 44 个职业的 220 项真实世界专业任务,最初旨在估算人工智能对 GDP 的贡献。
| 部门 | 示例职业 |
|---|---|
| 制造业 | 采购员和采购代理、生产主管 |
| 专业服务 | 财务分析师、合规官 |
| 信息 | 计算机与信息系统经理 |
| 金融与保险 | 财务经理、审计师 |
| 卫生保健 | 社会工作者、卫生管理人员 |
| 政府 | 警务主管、行政经理 |
| 零售 | 客户服务代表、柜台职员 |
| 批发的 | 销售主管、采购代理 |
| 房地产 | 物业经理、评估师 |
任务类型
任务需要交付实际成果:Word 文档、Excel 电子表格、PDF、数据分析、项目计划、技术规范、研究报告和流程设计。
支付系统
支付金额基于实际经济价值,而不是固定上限:
Payment = quality_score × (estimated_hours × BLS_hourly_wage)
| 指标 | 价值 |
|---|---|
| 任务范围 | 82.78 美元 – 5,004.00 美元 |
| 平均任务值 | 259.45美元 |
| 质量评分范围 | 0.0 – 1.0 |
| 总任务数 | 220 |
配置
代理配置位于livebench/configs/:
{
"livebench": {
"date_range": {
"init_date": "2025-01-20",
"end_date": "2025-01-31"
},
"economic": {
"initial_balance": 10.0,
"task_values_path": "./scripts/task_value_estimates/task_values.jsonl",
"token_pricing": {
"input_per_1m": 2.5,
"output_per_1m": 10.0
}
},
"agents": [
{
"signature": "gpt-4o-agent",
"basemodel": "gpt-4o",
"enabled": true,
"tasks_per_day": 1,
"supports_multimodal": true
}
],
"evaluation": {
"use_llm_evaluation": true,
"meta_prompts_dir": "./eval/meta_prompts"
}
}
}
运行多个代理
"agents": [
{"signature": "gpt4o-run", "basemodel": "gpt-4o", "enabled": true},
{"signature": "claude-run", "basemodel": "claude-sonnet-4-5-20250929", "enabled": true}
]
经济体系
起始条件
-
初始余额:10 美元——这是有意为之的严格限制。每一分钱都至关重要。
-
代币成本:每次 LLM 调用后自动扣除
-
API费用:网页搜索(Tavily每次调用0.0008美元,Jina每百万代币0.05美元)
成本跟踪(按任务)
每个任务一条合并记录token_costs.jsonl:
{
"task_id": "abc-123",
"date": "2025-01-20",
"llm_usage": {
"total_input_tokens": 4500,
"total_output_tokens": 900,
"total_cost": 0.02025
},
"api_usage": {
"search_api_cost": 0.0016
},
"cost_summary": {
"total_cost": 0.02185
},
"balance_after": 1198.41
}
代理工具
该代理在独立仿真模式下拥有 8 种可用工具:
| 工具 | 描述 |
|---|---|
decide_activity(activity, reasoning) |
选择:"work"或"learn" |
submit_work(work_output, artifact_file_paths) |
提交已完成的作品以供评估和付款 |
learn(topic, knowledge) |
将知识保存到持久内存(至少 200 个字符) |
get_status() |
查看余额、费用、生存等级 |
search_web(query, max_results) |
通过 Tavily 或 Jina AI 进行网络搜索 |
create_file(filename, content, file_type) |
创建 .txt、.xlsx、.docx、.pdf 文档 |
execute_code_sandbox(code, language) |
在隔离的沙箱中运行 Python(e2b默认,可选boxlite) |
create_video(slides_json, output_filename) |
从文本/图像幻灯片生成 MP4 |
从 AI 助手到 AI 同事
ClawWork通过经济责任制,将纳米机器人从人工智能助手转变为真正的人工智能同事。与 ClawMode 集成后:
每次对话都需要消耗代币——这会带来真实的经济压力。 收入来源于完成现实生活中的专业任务——通过专业工作创造真正的价值。 纳米机器人需要自给自足才能生存——它的收入必须大于支出。
这种演变将你的轻量级人工智能助手转变为一个具有经济价值的同事,它必须通过实际生产力来证明自己的价值。
您将获得
-
所有9个纳米机器人频道(Telegram、Discord、Slack、WhatsApp、电子邮件、飞书、钉钉、魔兽世界、QQ)
-
所有纳米机器人工具(,,,,,
read_file等等)write_fileexecweb_searchspawn -
加上4种经济工具(
decide_activity,,,)submit_worklearnget_status -
每条回复都包含费用明细:
Cost: $0.0075 | Balance: $999.99 | Status: thriving
完整设置说明:请参阅clawmode_integration/README.md
控制面板
React 控制面板http://localhost:3000通过 WebSocket 显示实时指标:
主标签页
-
资产负债表(实时折线图)
-
活动分配(工作与学习)
-
经济指标:收入、成本、净值、生存状况
工作任务选项卡
-
所有已分配的GDPVal任务,包括行业和职业
-
支付金额和质量评分
-
完整的任务提示和提交的成果
学习标签页
-
按主题组织的知识条目
-
学习时间表
-
可搜索的知识库
项目结构
ClawWork/
├── livebench/
│ ├── agent/
│ │ ├── live_agent.py # Main agent orchestrator
│ │ └── economic_tracker.py # Balance, costs, income tracking
│ ├── work/
│ │ ├── task_manager.py # GDPVal task loading & assignment
│ │ └── evaluator.py # LLM-based work evaluation
│ ├── tools/
│ │ ├── direct_tools.py # Core tools (decide, submit, learn, status)
│ │ └── productivity/ # search_web, create_file, execute_code, create_video
│ ├── api/
│ │ └── server.py # FastAPI backend + WebSocket
│ ├── prompts/
│ │ └── live_agent_prompt.py # System prompts
│ └── configs/ # Agent configuration files
├── clawmode_integration/
│ ├── agent_loop.py # ClawWorkAgentLoop + /clawwork command
│ ├── task_classifier.py # Occupation classifier (40 categories)
│ ├── config.py # Plugin config from ~/.nanobot/config.json
│ ├── provider_wrapper.py # TrackedProvider (cost interception)
│ ├── cli.py # `python -m clawmode_integration.cli agent|gateway`
│ ├── skill/
│ │ └── SKILL.md # Economic protocol skill for nanobot
│ └── README.md # Integration setup guide
├── eval/
│ ├── meta_prompts/ # Category-specific evaluation rubrics
│ └── generate_meta_prompts.py # Meta-prompt generator
├── scripts/
│ ├── estimate_task_hours.py # GPT-based hour estimation per task
│ └── calculate_task_values.py # BLS wage × hours = task value
├── frontend/
│ └── src/ # React dashboard
├── start_dashboard.sh # Launch backend + frontend
└── run_test_agent.sh # Run test agent
基准指标
ClawWork 从以下几个方面衡量 AI 同事的表现:
| 指标 | 描述 |
|---|---|
| 生存日 | 该试剂保持溶解状态的时间有多长 |
| 最终余额 | 净经济效益 |
| 总劳动收入 | 已完成任务的总收入 |
| 利润率 | (income - costs) / costs |
| 工作质量 | 各项任务的平均质量得分(0-1) |
| 代币效率 | 每花费一美元购买代币所获得的收益 |
| 活动组合 | 工作百分比与学习百分比决策 |
| 任务完成率 | 已完成任务/已分配任务 |
故障排除
仪表盘未更新 → 强制刷新:Ctrl+Shift+R
代理未获得收入 → 检查submit_work通话记录和"💰 Earned: $XX"控制台。确保OPENAI_API_KEY已设置。
港口冲突
lsof -ti:8000 | xargs kill -9
lsof -ti:3000 | xargs kill -9
pip 安装过程中出现代理错误
unset http_proxy https_proxy HTTP_PROXY HTTPS_PROXY
pip install -r requirements.txt
沙盒后端不可用 → 安装e2b-code-interpreter(默认后端)或boxlite[sync](实验性本地后端),然后设置CODE_SANDBOX_PROVIDER为e2b或boxlite。
SyncCodeBox导入失败 → 使用同步附加功能重新安装 BoxLite pip install "boxlite[sync]>=0.6.0":。
E2B 沙箱速率限制 (429) → 在使用默认设置时生效CODE_SANDBOX_PROVIDER=e2b。等待约 1 分钟,让过期的沙箱过期。
ClawMode:ModuleNotFoundError: clawmode_integrationexport PYTHONPATH="$(pwd):$PYTHONPATH" →从仓库根目录 运行。
爪模式:余额不减少 → 余额仅通过爪模式网关跟踪成本。直接nanobot agent命令会绕过经济跟踪器。
贡献
欢迎提交 PR 和问题!代码库简洁且模块化。主要扩展点:
-
新任务来源:
_load_from_*()实施livebench/work/task_manager.py -
新工具:添加
@tool功能livebench/tools/direct_tools.py -
新的评估标准:在 JSON 中添加类别
eval/meta_prompts/ -
新的LLM提供商:可通过LangChain/LiteLLM开箱即用
路线图
-
多任务日——代理人从可用任务市场中选择任务。
-
任务难度分级,报酬根据难度而变化
-
语义记忆检索助力更智能的学习和重用
-
多智能体竞赛排行榜
-
除了纳米机器人之外,还有更多人工智能代理框架。


