就在今天(1月27日),月之暗面发布了 Kimi K2.5。
不是小版本更新,是大升级:多模态视觉理解 + Agent 集群 + Office 技能。官方称这是”Kimi 迄今最智能的模型”。
真的假的?来锐评一下。
K2.5 到底升级了什么?
1. 终于能”看”了
K2.5 支持视觉输入——图片、截图、视频都行。这意味着:
- 拍个错误截图让它 debug
- 传个表格图片让它分析
- 录个屏让它看你在干嘛
对于那些”我不知道怎么描述这个问题”的场景,直接甩图比打字强多了。
2. Agent Swarm:100 个 Agent 同时干活
这是这次最亮眼的功能。
K2.5 可以启动最多 100 个子 Agent 并行工作,单次任务最多 1500 次工具调用,官方说比单 Agent 快 4.5 倍。
想象一下:你让它调研一个话题,它同时派 50 个 Agent 去搜不同的资料,然后汇总给你。这才是 Agent 该有的样子。
3. Office 技能解锁
K2.5 开始掌握 Word、Excel、PPT、PDF 的”中高阶技能”。官方说法是”助用户直接交付准专业水平的办公文档”。
翻译一下:帮你做 PPT 的 AI 终于来了。
4. 基准测试确实猛
开源模型里目前最强:
- HLE (人类最后的考试): 50.2%
- BrowseComp (网页浏览): 74.9%
- OmniDoc Bench 1.5 (文档理解): 开源 SOTA
同时支持思考/非思考两种模式,想快就快,想深就深。
但是…
1. 基准测试≠实际体验
Reddit 上已经有人吐槽了:K2.5 在推理过程中会凭空编造题目,然后自己去解那个不存在的题目。还会反复 second-guess 自己,最后自信满满地输出错误答案。
基准测试刷得再高,实际用起来该翻车还是翻车。
2. Agent Swarm 是 Beta
100 个 Agent 并行听起来很爽,但这功能还在 Beta。稳定性存疑,生产环境慎用。
3. 视觉能力有多强?
多模态是好,但具体能力如何还得实测。是真的能理解复杂图表,还是只能处理简单场景?官方没给太多细节。
4. 老问题还在
1T 参数、32B 激活的 MoE 架构——和 K2 一样。本地部署依然是梦,普通人还是只能用 API。
我的判断
K2.5 的升级方向是对的:
多模态 + Agent 集群 = 降低使用门槛 + 提高任务效率
这两个方向正是 AI 从”聊天机器人”进化到”真正助手”的关键。
但”方向对”和”做得好”是两回事。多模态理解的深度、Agent 集群的稳定性、Office 技能的实用性——这些都需要时间验证。
建议:去 kimi.com 体验一下再说。 反正 API 还在做 7 天充值赠送活动,薅羊毛的时候到了。
最后说一句:国产模型卷得真快。上周 Qwen3-Max-Thinking 刚发,这周 K2.5 就来抢风头了。
对用户来说是好事——选择多了,价格低了。但对开发者来说… 你们能不能别更新这么快,我代码还没改完呢。