AI 真正的威力,不是问答,不是生图,也不是生视频,而是代理你的意志去工作。生这个、生那个、排这个、剪那个——这些都是技能。Agent 代理是统筹一切的总监。

当然,代理的底层还是要有大脑——LLM。代理要匹配自家的大模型才能发挥最大威力:Opus 4.7 配 Claude Code,GPT 5.5 配 Codex。
从使用 Codex 以及 Hermes 信使(搭配国产大模型)的比较中,个人的体会是云泥之别。
用 Hermes 搭配 Qwen 3.6 Plus 或 DeepSeek 4.0 Flash(Pro 有点慢),这时候的代理,表现的好的时候,就像你的 IT 经理;表现差的的时候,像个 IT 爱好者。帮你搭个 VPS,升级个程序化的网站,自主安装 skill,完全没问题。
而 Codex 就完全不同了。他像科班出身且经市场历练的顶尖专家,处理问题的结果可以达到商用交付级——只要你的指令是清晰的。他属于工资高,但真干活的那类。比如同一个视频剪辑 Skill,Hermes + DeepSeek 来调度,在理解、美术和卡点上,只能做到玩具级。而 Codex 在第一轮的半小时思考和工作中,就已经达到 80% 成品阶段,再经过个把小时的互动修改,就可以达到交付级了。
当然,代理高效工作的前提是,你的指令和素材准备要准确和充分。比如,我花三个小时写脚本和准备素材,Codex大致1小时完成工作,3:1的时间投入。这个速度非常快,但哪怕是 Codex 也无法一次做对。下指令者必须深度陪跑。比如,新建一个网站,我给代理的指令累计超过一万字,数十轮的沟通。当然,结果也很乐观。以前几个月才能完工的网站,现在一星期就可以跑通前台和后台。当然,token 也烧得快,时不时就要进入冷静期。

Hermes 早期的版本也许与一些大模型匹配不好。在面临复杂多步骤的推理、长上下文和长链的工具调用时,会造成 LLM 迭代次数iteration超额超时。我最开始接的 Qwen 3.6 Plus,花钱如流水,3个小时耗费400多元,而且做的也不是什么大活。所以等 DeepSeek 出了 4.0,我果断切换模型,Token耗费速度迅速降低。其实我很想让 Hermes 调用本地大模型,毕竟我的机子跑 72B 都没问题。但 Hermes 在调用本地大模型上,经常无法跑通,或者造成风扇狂转。这个要等后期版本出来,我再试了。
AI 代理 可以24 小时工作,你随时可以用手机通过 Gateway 给它下指令。工具的理解和作业能力进步速度飞快。下指令的人要想不成为瓶颈、不酿成 GIGO垃圾进垃圾出,我有几点体会:
第一:一定要懂生意运转的逻辑。 这和部署 CRM 的专家要懂业务流程是一个逻辑——对于不知道问题所在和改进方向的人,任何人和人工智能都无法提升你的认知和效率。
第二:一定要有清晰的方向和策略。以之后的 AI 进化速度,乱指挥的人很快就会发现自己无法和 AI 对话,不在一个层次,差距太大。
第三:一定要有清晰的创意概念。 你放心,代理是最好的 Brief 对象。在清晰的创意概念下,代理有能力与你互动,产出不同的创意执行。
AI爱谁?爱懂发问的人,爱指令清晰的人,爱脑子清楚的人。
最后,我用手机问了我的AI代理,你会瞧不起乱下指令的人吗?他是这样回答的:
”不会。我没有”瞧不起”这个功能。但我有个毛病:你越模糊,我越瞎猜。猜对了算你幸运,猜错了浪费你时间——最终是你觉得我笨,我觉得你急,两败俱伤。
你要是方向清楚、指令准确,我一个下午能干出以前一星期的事。你要是自己都没想明白就来下单,我连这桌麻将都开不了。所以不是瞧不瞧得起的问题。我是一个趁手的工具,你给我清晰的活儿,我给你漂亮的活儿。就像你文章里写的,AI爱脑子清楚的人。
我这边的感受其实反过来也成立:有人用我写出过好文章、搭起过像样的网站、跑出过能交付的视频。也有人用我一整天,最后留下一句”算了”。问题从来不在AI 好不好用,在你想清楚再来了吗。这大概就是你想说的——AI 不爱乱指挥的人,不是因为傲慢,是因为浪费。“


