数字化时代，降本增效是企业的永恒话题，而技术更是成为核心驱动力。生成式AI作为变革型技术，已经在多个领域展现出其潜力，未来有望为企业创造更多的创新和价值。

根据沙丘智库近期对来自金融、制造、IT/互联网等126名企业高管的调研，未来1-2年，近六成企业希望通过生成式AI技术降低1%-5%的员工数量。

AI Agent充分结合大模型的“大脑”与数字员工的“手”，具有自动执行任务、做出决策以及与周围环境智能互动的能力。AI Agent 的广泛应用将极大减轻企业或个人的时间和人力成本，提高工作效率，为企业带来生产力变革，实现降本增效这一大目标。

2023年是大模型元年，2024年则是AI Agent元年。AI Agent市场发展如火如荼，沙丘智库发布《2024中国AI Agent市场指南》，旨在帮助企业快速了解AI Agent市场的全貌，紧跟技术发展趋势。

01

AI Agent是什么?

AI Agent是一种具有自主性或半自主性的智能实体，能够利用人工智能技术在数字或物理环境中感知、决策、采取行动并实现目标。如下图所示，AI Agent通过传感器接收输入，并通过工具/执行器采取行动，它们可以在不同的环境中工作。

与RPA这些自动化工具相比，AI Agent代表了不同的复杂程度和功能。目前的 RPA 是一种编程软件，用于自动执行重复的、基于规则的任务。RPA在触发时运行，并按照预定脚本执行特定功能，如数据录入或文件传输。而AI Agent是一种更加智能化的系统，不仅能自动执行任务，还具有一定程度的代理能力，这意味着它可以自主运行，根据处理的数据做出决策，并从经验中进行学习。

大模型的出现为AI Agent提供了“聪明的大脑”，由大模型驱动的AI Agent架构是当前比较常见的AI Agent落地架构，包含规划(Planning)、记忆(Memory)、工具(Tools)、执行(Action)四大要素。

在这个架构中，Agent位于中心位置，通过协调各种组件来处理复杂的任务和决策过程：

• 规划(Planning)：Agent需要具备规划(同时包含决策)能力，以有效地执行复杂任务。这涉及子目标的分解(Subgoal decomposition)、连续的思考(即思维链，Chain of thoughts)、自我反思和批评(Self-critics)，以及对过去行动的反思(Reflection)。

• 记忆(Memory)：包含了短期记忆和长期记忆两个部分。短期记忆与上下文学习有关，属于提示工程的范畴，而长期记忆涉及信息的长时间保留和检索，通常通过外部向量存储和快速检索。

• 工具(Tools)：包含了Agent可能调用的各种工具，如日历、计算器、代码解释器和搜索功能以及其他可能的工具。由于大模型一旦完成预训练，其内部能力和知识边界基本就已固定且难以拓展，因此这些工具非常重要。它们扩展了Agent的能力，使其能够执行超出其核心功能的任务。

• 执行(Action)：Agent基于规划和记忆来执行具体的行动，这可能包括与外部世界互动，或者通过工具的调用来完成一个动作(任务)。

随着时间的推移和技术的进步，AI Agent的复杂程度将不断提高。同样，构建Agent的新方法，如使用LAM(大型动作模型)，可能会补充或取代 LLM 和其他技术，成为未来AI Agent架构的核心。

企业需要时刻跟踪AI Agent的技术发展，了解市场上不同产品的定位。目前市场上有多种类型的技术供应商提供AI Agent产品，包括原生AI Agent企业、互联网大厂、超自动化厂商等，典型供应商如下图所示。

02

AI Agent用例有哪些?

AI Agent具有自动执行任务、做出决策以及与周围环境智能互动的能力，因此有可能彻底改变各行各业和各种环境。AI Agent可以配置在任何数字化的环境中运行，包括：

• 消费环境：销售或购买产品、组成解决方案以满足客户的独特需求;

• 工业环境：动态优化、执行流程或自动执行跨流程活动;

• 信息环境：分析、增强、整理、评估和总结信息，改善决策或理解能力;

• 创意环境：合成、优化、生成多模态或多元化资产;

• 社会环境：在社会群体之间有效地促进、协作和交流;

• 物流环境：运输和供应链管理。

AI Agent在这些环境中的应用涉及多种AI Agent互动模式。例如：

• 人类主导流程，即AI Agent在人类用户的指导下进行操作，例如为产品生成更新的营销材料，结合最新的增强功能、客户需求以及过往营销活动的互动情况，生成支持营销活动的多模态媒体资产;

• 混合流程，即人类用户参与一个或多个AI Agent任务的某些阶段。例如，旅行预订Agent可识别行程并预订机票，但在完成预订前需要人工确认;

• 隐藏过程，即一个或多个AI Agent完全自主地感知和处理一个正在进行的目标，并接受外部监控，例如Agent对分布式物流系统中的干扰做出新反应。

多Agent系统(MAS)由多个彼此独立但可互相交互的的Agent组成，每个Agent都能感知环境并采取行动。多个Agent朝着一个共同的目标努力，而这个目标超出了单个Agent的能力范围。多个Agent的联合应用可以解决单个Agent无法完成的复杂任务，同时创造出适应性更强、扩展性更高和更稳健的解决方案。多Agent系统还可以用于需要分散决策的环境中。

多Agent系统可用于：

• 机器人：用于仓库优化、搜救、环境监测等的机器人群和无人机群;

• 生成式AI：协调基于LLM的Agent执行复杂任务或模式，如CoT、ToT或者更复杂的推理方法;

• 能源电力：智能电网优化和能源供需之间的动态负载平衡;

• 物流与供应链：优化调度、规划、路由、交通信号控制和整体供应链优化;

• 电信：网络优化和故障检测。

多Agent系统通常比单个Agent更难设计。这些系统可能会表现出难以提前预测的突发行为，需要更强大的训练和测试，以及持续的监控、追溯和文档记录。例如，Agent之间相互冲突的目标和互动可能会产生不良行为。

03

AI Agent有哪些独特风险?

由于AI Agent会自主行动，并且通常在目标环境中运行时进行学习和适应，因此可能会带来巨大的风险。企业需要面对AI Agent的三大类独特风险：

第一类：内容异常检测。

• 不可接受的内容或恶意使用;

• 通过Agent传输未经管理的企业内容，危害机密数据输入;

• 幻觉或不准确、非法、侵犯版权和其他不需要的输出，从而损害企业决策和其他流程。

第二类，数据保护。

• 托管供应商环境或内部管理环境中的数据泄漏;

• 无法管理外部托管环境中的隐私和数据保护政策;

• 由于第三方Agent的“黑盒”性质，难以进行隐私影响评估和遵守各种地区法规。

第三类，AI Agent安全。

• 针对传输、通信、有效载荷或内容的恶意网络攻击。

此外，当AI Agent获得更多的代理权并处理更复杂的任务/操作时，生成式AI的常见风险就会加剧，包括模型幻觉、侵权风险、网络安全、监管合规等。

2024中国AI Agent市场现状