deepseek-v4-pro + Harness 实战效果

据网上传，目前Anthropic的所有产品均为harness模式，不过最近他们推了一个harness产品，原本把我吓了一跳，但实质一看，并不是干货，多少有点恶心人了，好东西都藏起来。我昨晚也成功验证了自己的第二个harness，工程量比是一开始做demo的100倍，平均跑完要30-50M token，10个小时左右(glm-5)，并且效果还挺好。不过还是有很多优化点的，这也正是本贴的由来，在接下来…

harness 框架：还是上面那篇帖子的产物
编程模型：deepseek-v4-pro

先说总结：效果拔群
如何拔群：1.之前我有发过贴说harness弥补了glm-5和sonnet 4.6的差距，那时的说法是 sonnet 4.6 是9成熟的饭，glm-5 + harness 是全熟的饭，等于是一个完全可用的系统。这里的最低要求当然也是完全可用，那优势在哪里呢，（这里就不对比代码质量了，从明显的内容出发，说实话，几千行我也懒得对比）。
可以看原帖，功能相对来说比较简陋的，而且相信大家也看得出来，页面设计比较不协调，最多最多只能算是个成品，今天这个页面体现就比前面的要好，至少至少能是个得出手的东西。

另外一点，从构建时间上来说，之前GLM-5 + harness 构建一个 MVP版本，大概需要5-6个小时，而本次是2小时27分15秒。

我个人认为，从编码层面来说，是符合deepseek官方发布的数值的。

PS：再来看个deepseek-v4-pro讲的冷笑话

总结

Attention! Attention! Attention! 上下文飙到400k不带忘的，这种体验我只在Opus 4.5、4.6和GPT系列上体会过
attention体验排名：Opus 4.6/4.5 > GPT > DS V4 Pro(Max) >> Opus 4.7 > Gemini in Antigravity >>> 国产模型（GLM 5.1、Kimi 2.6等）
2.干活很积极，deeply seek的欲望很强，能跟GPT 5.5（xhigh）给出的plan进行两轮讨论（其他国产模型经常直接all pass，Opus差不多也能撑1~2轮）
3.速度很快，opencode部署能飙到40~50 TPS

暂时想到的主要就这三点，但我还是不建议all in DeepSeek，目前定位只能当个下位GPT替代。

吹完就该黑一下：
1.难题太慢了。虽然DS能解决其他国产模型搞不定的问题，但感觉像在手动推导，而Opus和GPT像是语料库里喂过答案，很快就定位到问题。DS的DeepSeek模式太吓人了，一个很隐蔽的bug不停推导干了我50%的周额度
2. 模型调用tools/subagents不积极，喜欢自己闷头干。这应该是post training的问题，后续应该能解决
3. 写代码还是拉胯，生产还是得靠GPT。试过一次，写完还有3、4个bugs

DeepseekV4pro 实测

总结

文章目录

微信打赏

评论