智谱新一代开源大模型 GLM-4.5发布，编程能力不输DeepSeek R1！

今日新闻 2025年11月10日 08:39 6 aa

智谱AI在7月28日晚发布了GLM-4.5，从官网公布的信息看，我提炼了几个关键词，推理、代码、开源、SOTA，所以GLM-4.5和DeepSeek-R1/V3， Kimi-k2和一样，是擅长推理、编程的开源大模型，但GLM-4.5达到了开源SOTA的能力，SOTA意味着它是开源里技术先进、表现最好、性能最优的模型，以我对智谱AI的了解，这绝不是夸张的宣传噱头。

首先从模型真实评测数据来看，GLM-4.5在主要的12个模型评测基准综合得分超过了所有国产模型，在所有模型对比中全球第三、国产第一、开源也是第一，这些评测基准包括了测评通用知识与综合能力的MMLU Pro、GPQA Diamond、HLE，评测数学与逻辑推理的AIME 2024、MATH-500，评测编程与工程能力的LiveCodeBench、SWE-Bench Verified、SciCode，还有评测工具交互与生态集成能力的BFCL v3、Terminal-bench、TAU-Bench、BrowseComp，可见着重对比了推理和编程能力。

Coding测试下来接近Claude 4 Sonnet水平，基本可以平替。

评测得分这么高，真实体验如何，我专门测试了GLM-4.5的代码能力，从https://chat.z.ai/进去即可，我让它编写代码实现太阳系行星绕太阳公转的可视化动态画面，而且要符合物理规律。

首先速度很快，整个推理过程大概在十几秒，其次推理步骤会隐藏在一个小框框里，不会占用页面，最后它生成了一个html文件，在页面侧边栏可以直接打开并直接渲染，可视化效果让我很意外，以为是demo，没想到是集控件、动画、渲染一体的完整看板。

https://chat.z.ai/space/k0ecw60emqa0-art

说实话同样的任务我在其他开源推理模型中测试，达到这个效果的寥寥无几。

为什么GLM-4.5推理编程能力这么强，并且综合能力达到开源SOTA？

基于官网发布的信息，我总结了以下几个点，是它能力提升的核心要素。

1、训练流程优化

GLM-4.5的训练过程主要分为三大阶段：先是15万亿token通用预训练、然后是针对代码/推理/智能体的8万亿token 专门训练、最后是强化学习增强代码/推理/智能体能力，而其他开源推理模型缺少领域针对性精调。

2、参数效率更高

模型性能取决于参数大小？那就太天真了，GLM-4.5 总参数3550亿（激活参数为320亿），仅为 DeepSeek-R1 的 1/2、Kimi-K2 的 1/3，但GLM模型参数效率更高，采用混合专家（MoE）架构，所以在综合评测中拔得开源模型头筹。

3、多能力融合

GLM-4.5由于训练算法的创新，能在单模型中原生融合推理、编码、智能体能力的模型，这应该是行业第一个做到的，可以无缝切换用于复杂推理的思考模式，以及用于快速回答的非思考模式，而且它的Agent工具调用可靠性更高，这就使得GLM-4.5模型综合能力强于其他同类模型。

除了在模型性能上的亮点之外，我觉得GLM-4.5的成本和速度也非常感人，API调用的话，输入0.8 元/百万 tokens，输出仅2 元/百万tokens，比其他主流模型低80%以上，而且性能达到SOTA水平，这就是现实中的加量还降价。

前面说到，GLM-4.5对话速度很快，我提问了一个编程问题，推理速度比我之前用的其他模型明显加速了好几倍，它的真实实测生成速度超过了100tokens/秒，而且支持支持高并发实时交互，其他主流模型一般在50tokens/秒左右，用下来你会有明显的感知差异。

由于GLM-4.5可以接进Claude Code、Cline等编程agent进行AI编程，所以我专门跑通了这个流程，从编程能力上看GLM-4.5基本上可以带给你现在最好的代码体验。

如何在Claude Code上接入GLM-4.5模型呢?

很简单，分为三步走。

首先你需要去bigmodel平台注册一个key，bigmodel是智谱AI的模型管理平台，里面有GLM-4.5在内的多种大模型接口。

登陆后进入控制台，点击右上角钥匙按钮，直接生成一个key密钥，备用。

然后你需要给Claude Code配置环境变量，也就是配置GLM-4.5模型，前提是你电脑上提前安装好了Claude Code，如果没有安装可以去Claude查看安装教程。

我用的是mac，配置GLM-4.5环境变量，需要先打开终端，然后输入以下命令。

export ANTHROPIC_BASE_URL=https://open.bigmodel.cn/api/anthropic export ANTHROPIC_AUTH_TOKEN="这里输入你注册的bigmodel API keys"

配置好后，在终端启动Claude Code，输入`Claude`即可。

当你看到终端出现以下的界面，说明Claude Code已经配置好GLM-4.5模型了，就能开始愉快的编程了。

然后你可以在编辑框与GLM-4.5对话，让它写代码，比如编写Python代码，实现二分类算法。

GLM-4.5会给出详细的代码解决方案，涵盖多种二分类算法和评估方法，可以看到它没有糊任务，是真的很专业。

接下来提问更难的任务，让GLM-4.5直接生成一个网站，比如搭建一个类似知乎的网站。

不需要其他复杂的提示词，GLM-4.5会分析你的简单需求，然后给出让你惊讶的结果。

最终会你会看到如下的效果，它生成了一个完整的网页，UI和知乎几乎一致，可以注册、登陆、提问、关注，还有推荐、热榜、话题等功能，不能说一模一样，可以说形神兼备。

你可以根据自己的需求对网站进行UI和功能的调整，直接提给GLM-4.5就可以。

除了Claude Code，你还可以在VsCode Cline插件里调用GLM-4.5，体验效果也很丝滑流畅。
安装好Cline后，直接在设置里配置GLM-4.5的接口地址和API key，注意需要选择Anthropic，因为GLM-4.5可以通过一个兼容 Anthropic API 的端点来调用。

配置好后，就可以直接使用Cline来与GLM-4.5对话进行编程。

这里我让它执行一个具体的任务，使用Python搭建一个电商公司BI分析看板，UI简洁美观实用。
然后它设计一套方案，技术栈上基于Streamlit构建电商公司BI分析看板，使用pandas处理数据，plotly来数据可视化。

功能特点包含了关键指标分析、趋势分析、明细数据、响应式布局等。

并且有界面功能的说明，我比较满意。

代码生成好后，它会自动帮你配置依赖库，最后执行如下命令打开BI看板。

cd ecommerce_bi_dashboard && python3 -m streamlit run app.py

有专门的筛选器可以筛选时间和类别。

后台可以配置数据，按实际业务生成看板。

从我个人测试GLM-4.5编程能力的体验来看，它的代码能力基本可以平替Claude Sonnet 4，而且速度会更快，这次的官方发布称为开源SODA并不为过。

开源在持续的发力，爆款模型接二连三，OpenAI、Gemini、Claude等承受很大的压力，可能AI大模型的格局又要发生一次变化了。

“双11”电商直播拼什么

比日本还"贵"的英伟达，快没钱了？专家：除了美国根本没人陪它玩

发表评论

智谱新一代开源大模型 GLM-4.5发布，编程能力不输DeepSeek R1！

“双11”电商直播拼什么

比日本还"贵"的英伟达，快没钱了？专家：除了美国根本没人陪它玩

热门文章

最新文章