一、上个月,我写了一篇文章[1],比较了两个大模型。就有人留言,两个模型太少了,能不能加入其他模型?正好上周(10月27日),MiniMax 公司发布...
2025-11-04 3
一、
上个月,我写了一篇文章[1],比较了两个大模型。
就有人留言,两个模型太少了,能不能加入其他模型?
正好上周(10月27日),MiniMax 公司发布了[2] M2 模型,代表了国产大模型的最新水平。

我就想,可以测测它的实战效果,跟智谱公司的 GLM 4.6 和 Anthropic 公司的 Claude Sonnet 4.5 对比一下。
毕竟它们都属于目前最先进的编程大模型,跟我们开发者切身相关。
二、
先要说明,其实我不太熟悉 MiniMax 公司[3],它比较低调。
我只知道,这家公司专门研发大模型,产品有文本模型、视频模型、音频模型等等,但都不是非常热门。我就没有特别关注。
上周,我在滑推特的时候,看到一些老外在议论(1[4]、2[5]、3[6]),这才知道 MiniMax 发布了新的旗舰模型 M2。

上面说话的这个人[7]是 HuggingFace 大模型社区的负责人,提到了 M2 模型在 Artificial Analysis 性能评比之中排名世界第五,开源模型第一。
当天的 HuggingFace 热度榜上,它也是第一名。

OpenRouter 的大模型全球调用量排名,它这周排在第三。

我就来了兴趣,准备好好试用一下。
三、
根据 MiniMax 公司的说明,M2 模型的编程能力特别强,是目前最优秀的编程模型之一。
大家知道,国际上最流行的编程模型现在是 Claude Sonnet 4.5,国内的 GLM 4.6 模型也很强,我就把它们三个放在一起对比。
简单起见,我就直接在官方的网页版(国内版[8],国外版[9])上运行测试,大家可以跟着一起动手试试看。

网页版实际是官方的智能体产品 MiniMax Agent[10],底层用的就是 M2 模型。
网页使用是免费的,API 调用现在也是免费期,为期两周。后面定价是百万 tokens 输入/输出 2.1元/8.4元人民币,官方宣传只有 Claude 价格的8%。
它的其他链接,我也列一下,文档仓库[11]在 GitHub,API 调用指南[12](兼容 OpenAI 和 Anthopic 格式)看官方文档,模型下载[13]在 HuggingFace,下载以后可以本地部署使用(如果条件允许)。
四、
我的测试题来自著名程序员西蒙·威利森(Simon Willison),他的网站有 Cluase Sonnet 4.5 的测试结果[14]。
此前,我用这些题目测过智谱公司的 GLM 4.6 模型,大家可以参考[15]。
本文主要是 MiniMax M2 的测试表现。
五、
第一题,测试模型理解和运行代码的能力。
拉取代码仓库 https://github.com/simonw/llm ,然后通过下面的命令运行测试用例。
pip install -e '.[test]'
pytest
上面的提示词要求模型抓取一个 Python 仓库,运行里面的测试用例,并返回结果。
从网页的显示来看,Minimax Agent 显然内置了沙盒,会在隔离环境的命令行下运行代码(下图)。

整个运行过程大约三分钟,然后它给出了结果:运行通过了466个测试用例。这个结果完全正确。

令我惊喜的是,除了运行结果,它还给出了覆盖率分析(下图),指出测试用例覆盖了代码的哪些功能。我还没在其他模型见过主动提供覆盖率的。

完整的对话看这里[16]。
六、
第二题,测试大家最关心的代码生成能力,看看它能不能按照要求生成应用程序。
我还是使用上面的仓库,要求 M2 为其增加一个功能,不仅需要修改代码,还需要修改数据库结构,并增加配套的测试用例。
1、代码仓库 https://github.com/simonw/llm 是一个 AI 对话应用,它将用户的提示和 AI 的响应存储在 SQLite 数据库中。
2、它目前使用线性集合,保存单个对话和响应。你尝试在响应表中添加一个 parentresponseid 列,并通过该列将对话的响应建模为树状结构。
3、编写新的 pytest 测试用例,验证你的设计。
4、编写一个 tree_notes.md 文件,首先将你的设计写入该文件,然后在运行过程中将该文件用作笔记。
这个任务比较复杂,运行时间稍微长一点。
这里有一个插曲。在运行过程中,它突然提示读取 GitHub 仓库没有成功,这时出现了我意外不到的一幕。
它竟自动切换到第三方的 deepwiki.com 去获取仓库。后面,分析数据库结构时,它又切换到 datasette.io 去分析 SQLite 数据库。这种第三方云服务的自动切换,我也是第一次见,可惜没来得及截图。
任务完成后,它给出了一段总结(下图),详细描述了它做了哪些事情,包括修改数据库、新增测试用例等等。

它甚至增加了一个示例文件(下图),演示新增的功能怎么用,还有一个示例图,演示修改后的对话结构,提示词里面可没要求它这么做。

完整的对话看这里[17]。
另外,官网的画廊[18]有很多它生成的应用,我觉得也值得看一下。
七、
第三题就是西蒙·威利森发明的“鹈鹕骑自行车”场景,测试它的理解和推理能力。
生成鹈鹕骑自行车的 SVG 图片。(Generate an SVG of a pelican riding a bicycle)
这是现实中不存在的情景,全靠模型自己推理出来。理解能力越强,生成的图像就越逼真。
下面就是它生成的结果,完整的对话看这里[19]。

作为比较,我把另外两个模型的结果也贴出来。
GLM 4.6

Claude Sonnet 4.5

我觉得,MiniMax M2 的结果(第一张图片)有两个值得注意的地方。首先,它添加了道路;其次,它的自行车结构相对更完整,只是缺了握把。另外,要是那只鹈鹕的姿势更像“骑车”就好了。
八、
测试就到这里,至于 GLM 4.6[20] 和 Claude Sonnet 4.5[21] 的结果对比,大家可以看它们各自的链接,自行比较。
我必须诚实地说,MiniMax M2 的表现超出了我的预期。
最吸引我的地方,还不是运行结果本身,而是它处理问题的方式,对用户很友好,会添加一些帮助理解的辅助结果,让你觉得很易用(accessible)也很易懂,这也从侧面增强了生成结果的可靠性。
我倾向于相信,各种评测结果确实是 M2 的真实实力。再考虑到它的 API 价格(现在还是免费期),我会在接下来的工作中使用它,也推荐大家试试看。
(完)
[1] 一篇文章: https://www.ruanyifeng.com/blog/2025/10/glm-4.6.html
[2] 发布了: https://www.minimaxi.com/news/minimax-m2
[3] MiniMax 公司: https://www.minimaxi.com/
[4] 1: https://x.com/reach_vb/status/1982705125157126590
[5] 2: https://x.com/ivanfioravanti/status/1982103760819064967
[6] 3: https://x.com/simonw/status/1982825075553493136
[7] 说话的这个人: https://x.com/reach_vb/status/1982705125157126590
[8] 国内版: https://agent.minimaxi.com/
[9] 国外版: https://agent.minimax.io/
[10] MiniMax Agent: https://www.minimaxi.com/news/minimax-agent
[11] 文档仓库: https://github.com/MiniMax-AI/MiniMax-M2
[12] API 调用指南: https://platform.minimax.io/docs/guides/text-generation
[13] 模型下载: https://huggingface.co/MiniMaxAI/MiniMax-M2
[14] 测试结果: https://simonwillison.net/2025/Sep/29/claude-sonnet-4-5/
[15] 参考: https://www.ruanyifeng.com/blog/2025/10/glm-4.6.html
[16] 这里: https://agent.minimaxi.com/share/329839918691041?chat_type=1
[17] 这里: https://agent.minimax.io/share/329995155439860?chat_type=1
[18] 画廊: https://agent.minimaxi.com/
[19] 这里: https://agent.minimaxi.com/share/329832235541493?chat_type=1
[20] GLM 4.6: https://www.ruanyifeng.com/blog/2025/10/glm-4.6.html
[21] Claude Sonnet 4.5: https://simonwillison.net/2025/Sep/29/claude-sonnet-4-5/
相关文章
                            
                            一、上个月,我写了一篇文章[1],比较了两个大模型。就有人留言,两个模型太少了,能不能加入其他模型?正好上周(10月27日),MiniMax 公司发布...
2025-11-04 3
                            
                            7月23日下午,在山东省产品质量检验研究院,山东省人民政府新闻办公室举行“产业链上的山东好品牌”系列现场记者见面会第二场,创新采用“发布+推介”的形式...
2025-11-04 6
苹果AI入华计划再延期,研发过程面临技术瓶颈当地时间11月2日,知名科技记者马克·古尔曼(Mark Gurman)在其Power On时事通讯中透露,...
2025-11-04 3
每经记者:杨煜 每经编辑:董兴生丨 2025年11月4日 星期二 丨NO.1 智元机器人真机强化学习落地智元机器人宣布其研发的真机强化学习技术已在与龙...
2025-11-04 3
【无需打开直接搜索微信;-】 操作使用教程: 1.亲,实际上微乐湖北麻将万能开挂器是可以开挂的,确实有挂.2.在"设置DD辅助功能DD微信麻将开挂工具...
2025-11-04 16
                            
                            司机们注意了,又有一家网约车平台发出暂停运营通知,还没提现的司机们赶紧提现了。广州市司机反映,当地蔚蓝出行发出通告:为配合公司未来发展战略实施,根据公...
2025-11-04 13
【无需打开直接搜索微信;-】 操作使用教程: 1.亲,实际上微乐湖北麻将万能开挂器是可以开挂的,确实有挂.2.在"设置DD辅助功能DD微信麻将开挂工具...
2025-11-04 11
                            
                            IT之家 11 月 4 日消息,苹果在 2022 年 11 月为旗下 HomeKit 智能家庭生态系统推出了新版 Home 架构,主要带来访客访问权限...
2025-11-04 2
发表评论