
AI Agent 到底好不好用?不是看它会不会聊天专业股票配资知识论坛,而是看它能不能解决问题。这篇文章教你如何从用户体验、场景匹配、技术能力等多个维度,快速判断一个 Agent 是“噱头”还是“真本事”。

首先,什么是智能体(Agent)。它不是一次LLM的简单调用,而是一个工作流(Workflow)。这个工作流由多个部分组成:
LLM:作为核心大脑,用于处理文本、推理和决策。工具(Tools):例如调用API获取外部信息、执行代码、查询数据库(RAG知识库)、网页搜索等。其他AI模型:处理多模态信息,比如音频转文字、图片识别等。Agent的关键设计模式在深入评估之前,我想介绍几种强大的Agent设计模式,主要分为:反思(Reflection)、Planning和多Agent协作的模式。
1. 反思(Reflection)模式传统的Agent工作流可能是线性的(A→B→C)。而“反思”模式允许Agent“自我纠错”。
一个典型的工作流是:LLM 1(初稿节点) → LLM 2(复查节点)。
这两个LLM的提示词(Prompt)是不同的。LLM 1负责生成内容,LLM 2则扮演“专家评审”的角色,负责批评和改进。比如,LLM 1生成一段代码,LLM 2(一个推理能力更强的模型)则负责检查代码中的bug或是否完整实现了需求。
这种反思不仅限于LLM,还可以借助外部工具。例如:
代码修正:LLM1生成代码后,系统先运行代码,然后将运行结果(或错误信息)一起发给LLM2,LLM2就能根据实际运行结果来修正代码。内容合规:LLM1生成一封邮件,一个外部工具(如正则表达式)检查邮件中是否包含竞争对手的名字。如果包含,工具会返回一个反馈给LLM2,让其重写。指标控制:LLM1写的博客超过了字数限制,一个字数统计工具将“字数”反馈给LLM2,让其缩减内容。2. 规划(Planning)模式(Plan-and-Solve)Planning模式则是让LLM自主规划执行步骤,因为比较简单,只需要规划好提示词,所以这里不作详细说明,不过在自己用智能体平台搭建智能体时可以试试Plan and solve模式,这个模式可以帮助解决步骤较多的任务,让大模型将其一步一步拆解,更好的完成任务,一份prompt提示词如下:
在开始行动之前,你必须先制定一个清晰的计划。
输出格式:
Plan:
第一步: [明确的第一步目标,例如:评估信息的完整性]
第二步: [明确的第二步目标,例如:验证核心论点的准确性]
第三步: [明确的第三步目标,例如:补充缺失的关键细节]
…(根据问题复杂度调整步骤)
注意:当应用场景已经无法用工具解决时,可以让LLM按步骤编写代码并执行来解决,因为python的panda数据库有成千上万的函数,可以解决各种各样的数据问题。
3. 多智能体协作(Muti-Agent)模式多智能体工作流,就是让不同的agent扮演一个项目里的不同角色,让他们共同完成任务,能够提升复杂任务的准确率,现在能够支持搭建多智能体的平台包括crewAI和腾讯智能体平台等,多智能体的通信模式有四种,一种是线性结构、一种是层级结构,还有一种是基于层级结构的多层级结构、最后是全员互通结构,结构越复杂,越能完成复杂任务,任务完成度也就越高,输出结果的采纳率就越高。
这里以营销报告生成助手工作流为例,列举了在设计营销报告的过程中可能出现的几种身份,分别是:市场营销主管、调研专家、绘图专家以及编辑
1)线性结构
2)层级结构
3)多层结构
4)全员互通
评估Agent不像评估传统软件那样非黑即白,因为它的输出质量很多时候是主观的。
评估的建议:
简单的评估方式也可以开启评测如果你主观认为经过优化之后的输出达到了标准但是评估系统的分数却没有上升,那么考虑使用更大的评测数据集将精力集中在输出的表现不如人类专家的部分进行优化提升(就比如检查工作流每一步的输出并让人类专家进行评审,审核出输出质量低的节点进行优化)找到输出不理想的例子,不要关注于输出好的例子建立一个表格记录每一步的输出内容以及自己对于输出的评价,总结出每一步出错或者自己不满意的概率,概率高的先解决为了节省成本,可以挑选某一个节点进行隔离测试评估的两个维度:1、评估方法:
代码评估(Objective):有明确的对错,可以用代码(if语句)来自动判断。
LLM即评委(Subjective):输出是主观的(如文案质量、图表清晰度),需要模型来打分。
2、“标准答案”:
有“每例基准答案”(Per example ground truth):你有一个包含“正确答案”的数据集。
无“每例基准答案”(No per example ground truth):你只有一个通用的质量标准,没有唯一的“正确答案”。
组合起来就是四种评估场景:
使用LLM进行主观评估时要注意以下两点:
避免位置偏差:大模型倾向于选择第一个选项(位置偏差)。评分标准要清晰:不要给模糊的标准。最好是二元评判,即“是否满足某条标准”,满足+1分,不满足-1分,最后汇总分数。一套系统的评估与改进流程:
第1步:建立工作流并进行“端到端”测试。
先跑通整个流程,看看最终输出。不要只关注好的例子,要集中精力找出输出不理想的例子 。
第2步:利用“Trace”定位问题节点。
一个工作流所有中间步骤的输出集合叫做“Trace” 。通过检查每一步(span)的输出,找到是哪一步(比如RAG检索、LLM初稿、还是反思节点)出了问题。可以建立一个表格,记录每一步的输出和评价,找到出错概率最高的节点优先解决。
第3步:创建评测集(Eval Set)。
当你锁定了一个有问题的节点(比如提示词A),你需要一个方法来衡量你的修改是否有效。这时,创建一个小型的评测集(比如10-20个有代表性的样本)。
第4步:建立衡量标准 。
针对这个评测集,定义清晰的评估标准(比如使用上面提到的四象限方法)。
第5步:迭代优化。
现在你可以开始尝试改进了。每一次修改(比如把提示词A改成B),都用你的评测集跑一遍,看分数是否有提升。
大模型表现如何优化?最后,提升一个大模型的表现可以从以下几个方面进行优化,课程给出了一个优化清单,非常有价值:
优化提示词(Prompt):指令更明确,或者使用Few-shot提示。调整超参数:比如RAG的相似度阈值、检索分块大小等。更换组件:换一个RAG厂商、换一个网页搜索API等。尝试不同的大模型:规模更大的模型更擅长遵循复杂指令,但也可能更贵更慢。要根据任务的复杂性(比如简单事实问答还是复杂推理)来权衡选择。将任务拆分:如果一个提示词过于复杂,LLM可能难以全部实现。最好将其拆分到2-3个LLM节点中分开执行。微调(Fine-tuning):这是最后手段,成本很高,当以上方法都无效时再考虑。总结构建Agent不是一个“一蹴而就”的魔法,而是一个严谨的工程学过程。尤其是评估环节,必须系统性地、一步一步地去测试、定位问题、建立评测标准,然后小步快跑地迭代优化。所以大家去动手试试吧!
本文由 @瞳仔设计说 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash专业股票配资知识论坛,基于CC0协议
汇盈策略提示:文章来自网络,不代表本站观点。