AI-Agent系列四-Agent架构认知

2025-03-12 约 1419 字预计阅读 3 分钟

AI Agent系列(四) -Agent架构认知

agent的认知架构中有三个基本组件：模型，工具和编排层。

模型
在agent的范围内，模型指的是将用作agent过程集中决策者的语言模型（LM）。agent使用的模型可以是一个或多个任何大小（小/大）的LM。
需要注意的是，模型通常不会使用agent的特定配置设置（即工具选择、编排/推理设置）进行训练。然而，通过提供展示agent能力的示例，包括agent在各种上下文中使用特定工具或推理步骤的实例，可以进一步优化模型以适应agent的任务。
工具
工具是为了弥补基础模型在文本和图像生成方面表现出色，但无法与外部世界互动限制。
工具使agent能够与外部数据和服务互动，从而解锁比底层模型单独所能实现的更广泛的行动。通过工具，agent可以访问和处理现实世界的信息。这使它们能够支持更专业的系统，如检索增强生成（RAG），这显著扩展了agent的能力，超越了基础模型单独所能实现的范围。
编排层
编排层描述了一个循环过程，该过程管理agent如何接收信息、执行一些内部推理，并使用该推理来通知其下一步行动或决策。这个循环通常需要持续到agent达到其目标或停止点。
编排层可以是简单的计算和决策规则，也可能包含链式逻辑、涉及额外的机器学习算法或实现其他概率推理技术。

agent可以使用认知架构通过迭代处理信息、做出明智决策并根据之前的输出细化下一步行动来实现其最终目标。在agent认知架构的核心是编排层，负责维护记忆、状态、推理和计划。它利用快速发展的提示工程领域及相关框架来指导推理和计划。

提示工程框架和任务规划的最流行的框架和推理技术包括如下三个：

ReAct，一种提示工程框架，为语言模型提供了一种思维过程策略，以推理并采取行动响应用户查询，无论是否有上下文示例。ReAct提示已显示出优于多个SOTA基线，并提高了LLM的人类互操作性和可信度。
Chain-of-Thought (CoT)，一种提示工程框架，通过中间步骤实现推理能力。CoT有多种子技术，包括自一致性、主动提示和多模态CoT，每种技术根据具体应用具有不同的优缺点。
Tree-of-Thoughts(ToT)，一种提示工程框架，非常适合探索或战略前瞻任务。它概括了链式思维提示，并允许模型探索各种思维链，作为语言模型通用问题解决的中间步骤。

Agents可以利用上述推理技术之一，或许多其他技术，为给定的用户请求选择下一步最佳行动。例如使用ReAct框架来为用户查询选择正确行动和工具的agent，其事件序列可能如下：

a. 问题：来自用户查询的输入问题，随提示提供

b. 思考：模型关于下一步该做什么的思考

c. 行动：模型关于下一步采取什么行动的决定

i. 这里可以选择工具

ii. 例如，行动可以是[Flights, Search, Code, None]之一，其中前三个代表模型可以选择的一个已知工具，最后一个代表“无工具选择”

d. 行动输入：模型关于向工具提供什么输入的决定（如果有）

e. 观察：行动/行动输入序列的结果

i. 这个思考/行动/行动输入/观察可以根据需要重复N次

f. 最终答案：模型提供给原始用户查询的最终答案