Agent 工程架构图
#agi/agent
#2024/08/25
#ai
目录
1. 总结
- 架构分层:
- 工具层
- 传统开发:API、RPA 等
- RAG:检索增强生成
- 将大型语言模型(LLM)的生成能力与外部知识库的检索功能相结合
- 原理:三个阶段
- 检索阶段:系统从外部知识库中检索与用户查询相关的信息
- 增强阶段:将检索到的信息与原始查询结合。
- 生成阶段:利用增强后的信息,生成最终的响应。
- 用处:==配合外部专业知识库,减少幻觉==
- AI 工具
- GPTS 插件
- 硬件接口
- Agent 套娃
- AIGC 工具
- 执行层
- 提示词工程
- 记忆区
- 规划层
- 工作流编排
- 工作流编排平台
- Agent 规划
- Agent 规划平台
- 工作流编排
- 语言模型层
- 可能是多个模型,大模型和小模型并用
- 工具层
- 智能体
- 记忆:长短记忆
- 工具:各类工具,比如天气查询、日历、计算器、
- 规划
- 思维链
- 反思
- 任务拆解
- Agent 套娃
- 可能更多 Agent 需要互相==协同==
2. Agent 的工程架构图(基础)
2.1. 解释 ①:RPA
2.1.1. 关键技术
2.2. 解释 ② : RAG
RAG(Retrieval-Augmented Generation,检索增强生成)是一种先进的自然语言处理技术,它结合了信息检索和文本生成的优势。
2.2.1. 定义
RAG是一种混合方法,它将大型语言模型(LLM)的生成能力与外部知识库的检索功能相结合。这种方法允许AI系统在生成响应时,不仅依赖于其预训练的知识,还能利用最新的、特定领域的信息。
通过在生成文本时利用外部知识库或文档来增强生成模型的性能
2.2.2. 工作原理(三个阶段)
- 检索阶段:系统从外部知识库中检索与用户查询相关的信息。
- 增强阶段:将检索到的信息与原始查询结合。
- 生成阶段:利用增强后的信息,生成最终的响应。
2.2.3. 应用场景
- 聊天机器人和客户服务:提供更准确、最新的信息。
- 内容创作:辅助写作,提供相关背景信息。
- 知识管理系统:整合和利用企业内部知识。
- 教育和培训:个性化学习体验。
- 医疗保健:提供最新的医学信息和诊断支持。
2.2.4. RAG的优势
- 提高准确性:通过访问外部知识库,减少“幻觉“(生成虚假信息)的可能性。
- 实时更新:能够利用最新信息,不受模型训练时间的限制。
- 可解释性:可以追踪生成内容的来源,增加透明度。
- 定制化:可以根据特定领域或组织的需求定制知识库。
- 降低成本:相比完全重新训练大型模型,RAG提供了一种更经济的方式来扩展AI系统的知识
2.2.5. 实现RAG的技术要求
- 向量数据库:用于高效存储和检索信息。
- 嵌入模型:将文本转换为向量表示。
- 大型语言模型:用于生成最终响应。
- 检索算法:如语义搜索,用于找到最相关的信息
- 信息检索的效率:需要快速检索大量文档以保持系统的实时性。
- 信息质量和可靠性:确保检索到的信息是准确和可信的。
2.2.6. 挑战和未来趋势
- 信息质量控制:确保检索的信息准确可靠。
- 实时性能优化:在大规模应用中保持快速响应。
- 多模态RAG:整合文本、图像、音频等多种类型的信息。
- 与其他AI技术的融合:如强化学习、因果推理等。
RAG技术通过结合检索和生成,提供了一种强大的方法来提升自然语言处理任务的性能,尤其是在需要动态知识更新的应用中
2.3. 解释 ③:Agent 套娃
2.3.1. 定义
“套娃“这个比喻可能指的是多层嵌套或递归的Agent结构。在这种结构中,一个Agent可能包含或调用其他Agent,形成一个层级结构,类似于俄罗斯套娃玩具
在应用在AI中,套娃这个概念可以用来描述一种系统架构,其中一个智能代理(Agent) 包含或管理其他子代理(Sub-agents),形成一个嵌套的、层级化的结构。
举个例子
在一个智能家居系统中,“管理家庭能源“这个目标可以分解成多个子任务:
- 监控能源使用情况: 由一个专门的Agent负责收集和分析家庭用电数据。
- 自动调节电器: 根据用电情况和用户习惯,自动开关空调、调节灯光亮度等。
- 与用户交互: 通过语音助手或手机App,让用户了解家庭能源使用情况,并提供节能建议。
每个子任务都可以由一个独立的Agent来完成,它们相互配合,共同实现“管理家庭能源“这个总目标。
2.3.2. Agent套娃的原理
- 层级结构:一个高级Agent可能管理和协调多个子Agent。
- 任务分解:复杂任务被分解成更小的子任务,由不同的专门Agent处理。
- 信息传递:Agent之间通过消息传递进行通信和协作
2.3.3. 应用场景
- 复杂问题解决:通过多个专门Agent的协作来解决复杂问题。
- 知识整合:不同领域的Agent可以结合各自的专业知识。
- 灵活性和可扩展性:可以根据需要添加或移除Agent。
2.3.4. 技术实现
- LangChain 等框架可用于构建和管理多Agent系统。
- ReAct(Reasoning and Acting)机制被用于增强Agent的推理和行动能力
2.3.5. 优势
- 模块化:每个Agent可以专注于特定任务。
- 可扩展性:易于添加新功能或知识领域。
- 鲁棒性:单个Agent失效不会导致整个系统崩溃。
2.3.6. 技术挑战
- 协调复杂性:管理多个Agent之间的交互可能变得复杂。
- 一致性维护:确保不同Agent之间的信息和行动保持一致。
- 通信开销: Agent 之间的通信可能增加系统的负担
- 性能开销:多层Agent可能增加系统的响应时间和资源消耗。
值得注意的是,OpenAI推出的 GPTs 虽然被一些人视为Agent,但它们与传统意义上的AI Agent有所不同。GPTs更像是预配置的大语言模型,而不是完全自主的Agent
3. Agent 与其他模块的关系图
3.1. 更多 bot(agent)协同关系图
如上图,这就形成了上文中(#解释 ③:Agent 套娃)的套娃
4. Agent 的迭代范式
5. 参考
- https://waytoagi.feishu.cn/wiki/QSVJwSkMfijmeZkcUSnckVXhnnd