在 Runtimewire 进行的精度对比测试中,DeepSeek V4 Pro 以 38.0 比 33.0 的分数击败 GPT-5.5 Pro。测试包含 4 项实时生成的新任务,由第三方模型评分。DeepSeek 在代码任务中表现更严谨,例如在日志脱敏任务中,它使用单一正则表达式正确处理重叠模式,而 GPT-5.5 Pro 因使用多个正则表达式导致排序错误和边界缺陷。
在指令遵循任务中,DeepSeek 严格按照要求输出,不添加额外内容;而 GPT-5.5 Pro 则出现偏离,例如在供应商延迟更新任务中擅自添加交接和升级细节。唯一平局的任务是简单的 JSON 格式化。最终结论:DeepSeek V4 Pro 在需要精确性的任务上更可靠。
看英文原文 →