一、 AI Agent落地方法论与技术点
1.怎么选场景,定目标?
相信大家和我们一样,遇到的第一桩难事,就是选场景,定目标。目标场景定的不对,不但常常让产研的心血付诸东流,还会无法形成合力,形成由点线再到面的连招攻击。为了介绍我们如何选场景,定目标,先介绍一下京东保险在干嘛?我们做传统保险,在京东场内还有许多特色服务,比如零售商品延长保障,运费险,不爱吃包退,复购补贴,宠物险,账户安全险,上门医疗险,外卖准时宝等。不看不知道,一看~还真不知道。为了让大家用的安心,每一个场景都可以有保险参与深度的定制化建设,每一款产品又都有一条完整的产品供应链来保障运行。

为了回答在哪里开始,我们还需要先了解智能体。
什么是AI 智能体?人就是一个智能体。智能体就是像人一样,能够感知环境、思考决策并执行行动的智能系统。

Agent有哪些好处?解决哪些痛点?
缺人?——高效的AGENT前来救驾,AI Agent产能无限,准实时响应,解锁无限人力能开创的安全度和利润空间。
信息管理难?——透明的AGENT前来救驾, 数字阳光,腐败绝迹;标准清晰,歧路清零;全局增改,无需培训;自驱自查,终止熵增。
需要自我解释的能力?——社交的AGENT前来救驾,建立Agent -人网络,人可监控,修改,接手Agent工作,和Agent合作。建立Agent- Agent网络,解锁群体智能。
业务变化大?——自主的AGENT前来救驾,Agent自适应,可以进行目标导向的灵活规划和持续进化。
Agent落地收益预估
当下Agent最擅长代理的类型是——在线的信息处理。在一家商业公司,最适合落地的场景,就是在线的把信息转化为金钱的场景。
智能体落地经济收益公式
R = (Ch - Ca) × D × A × S
R:智能体落地的经济收益
Ch:单位人力成本
Ca:单位Agent运行成本
D:转化链路的直接性(0~1)
A:Agent智识覆盖度(0~1)
S:规模
其中:
A= M /(TI)
M: 信息输入量
T 获得反馈的周期(时间单位)
I:基准智识难度(值越大越难)
从我们自己总结的智能体落地经济收益公式可以看到:
知识到金钱的转化路径越直接,原有转化链路成本越高,Agent智识能覆盖的链路和比例越全面,业务规模越大,则收益越大,越适合作为优先落地场景。
其中,Agent智识覆盖度取决于agent本身的准确率,想要Agent的效果好,需要选择场景任务本身难度不超过当下Agent智识可处理的阈值,可输入给Agent的有效指令信息越全面清晰越好,Agent获取外部反馈的周期越短越好。
为什么说保险供应链的生产流程非常适合AI Agent落地?
保险的本质是通过集体协作,将个体不确定的巨大风险损失,转化为确定的小额保费支出。
保险公司就是通过经营风险实现“把个体无法承受的大损失转化为群体可分摊的小成本”, 这种经营风险的底层逻辑是基于概率建立起来的,风险的系数的预估是通过信息估算得来的,与AI的决策逻辑一脉相承。
保险供应链就是风险这种虚拟的概率型产品从生产到交付到售后的全流程,主要包含产品生产、定价、营销、交易、履约理赔、风控。
直面经营结果(规模/利润)增长而非过程指标的目标设计
Agent中文翻译是智能体,直译是代理。Agent的目标就是所代理角色的目标。成本和规模是最常见的例子,当他们串联成线和面,一个直面经营结果的agent化的保险供应链就产生了。

2.AI应用于生产是什么样的,需要怎样的技术积累?

Agent由上述组成部分演化而来,技术底座做的好,核心是每个技术模块的精益求精加整体架构的灵活性和成长性。我们将技术亮点总结如下:
亮点一:领域大模型——场景业务模型微调+小尺寸大模型学习及行业偏好。
通用大模型虽然具备强大的语言理解和生成能力,但在特定行业和业务场景中往往存在不足,主要体现在:
外挂知识库(RAG)的方式虽然可以部分解决掉专业性的问题,来适配生产流程,但部分ToB场景,及大多数ToC的场景中,尤其是实时意图理解相关的情景,要求大模型自身习得领域专业知识,才能做到精准识别用户意图,因此有必要训练保险领域大模型。
小尺寸模型通过业务数据微调,已经被证明在保险垂类场景可以满足业务需求。大部分ToC场景有实时性需求,需要做到与用户交互过程的实时响应,这也限制了模型参数不能盲目增加。另外现阶段保险AI业务变动还计较多,控制合理的尺寸可以在可控的成本内及时响应不断变化的业务需求 。因此现阶段的最佳选择是训练一个保险领域的小尺寸大模型。随着未来AI业务更加稳定,方法论更加成熟,我们会逐渐增模型尺寸,来达到更好的业务效果。

亮点:
一、数据驱动的精准洞察力
通过融合海量、高质量的保险领域专有数据,包括:精算级保险条款库:覆盖全品类产品的标准化与个性化条款;真实的电商行为数据:动态反映用户消费偏好与潜在保障需求。通过 持续预训练 → 监督微调 → 对齐优化”的三阶段,让模型擅长于条款解读,商机洞察和产品推荐。
二、上下文长度
在小参数模型中,利用上下文差值等技术,让上下文长度和长文本理解能力具有显著优势。为用户提供流畅、即时的交互体验,有效支撑高并发、低延迟的线上业务场景。
三、“LLM as Agent”理念实践
我们将大模型定位为具备任务执行能力的智能体(Agent),而非仅局限于问答系统。模型可主动调用外部工具、实时获取数据并执行复杂逻辑计算,独立完成产品对比、方案定制、核保咨询等全链路保险任务,从而真正转型为一个懂保险、能办事的智能保险专家。
四、少数据量情景下的训练链路设计
一般情况下,持续预训练(cpt)会选择从base model 训练,sft和对齐则从instruct model开始训练,这存在两个问题,一是cpt好的模型还需要大量的昂贵的instruct指令数据才能变成一个成熟的instruct模型,这里的数据成本和流程依赖会大大延迟模型的训练产出效率。二是SFT阶段的造成的对知识的灾难性遗忘很明显,所以需要在流程上或者数据上再去做混合训练来再SFT阶段输入知识,如:hybrid-turning, structTuning, 我们参考SHADOW-FT 的工作,利用BASE模型和INSTUCT模型在参数和后续SFT,DPO训练上表现的一致性,采用在base模型上SFT,和对齐训练,最后再将变化了的参数用一定的方式和Instuct模型叠加 ,获取相似效果来解决之前提到的两个问题。经验证,这种方式结合 structTuning做SFT阶段名词解释和知识注入,在知识保留上有更好的效果。
五、少数据量情景下的样本构造
使用种子数据,利用WizardLM ,MAGPIE,GraphGen,Condor,Self-Instruct,Self-QA,Self-KG等丰富的方法构造多样的训练数据。
六、科学测评
通用能力,保险通用能力,业务能力三方面展开测评,在保险通用能力上,由于没有开源权威榜单,构造相应榜单。
A. 业务把保险领域能力分为了八个维度,每个维度下有多个子类
B. 任务格式
C. 难度 简单(Easy) , 中等(Medium), 困难(Hard)
亮点二:知识库,适配业务的深度检索

1.表格处理优化:
保险有非常多表格,传统OCR识别表格方法,仅输出文本,表格结构被破坏,无法识别单元格的层级和对应关系,我们经过实验,采用最简单的表格序列化方法,利用大模型对于markdown ,HTML 等序列化语言学习能力,对于非常不规则的表格也实现了很好的理解能力
|
|
场景 | - | 报销比例 | 免赔额 |
| 住院医疗 | 一般住院 | 国内 | 80% | 1000元 |
| 境外 | 60% | 2000元 | ||
| 意外住院(含手术) | 全部 | 90% | 500元 | |
| 门急诊 | 一般门诊 | 国内 | 70% | 200元 |
| 特殊门诊(含肿瘤放疗) | 全部 | 85% | 300元 |
转换后的表格
2.利用层级分片(Structural Chunking),保持多长下文之前的全局一致性
适用材料:保险条款 材料特征: 保险条款具有明确的层级结构(章→节→条→款),逻辑严谨,用户问题往往指向具体条文,如“自燃是否属于除外责任”“等待期内能否报销”等。
技术选型:
3.微调训练embedding和基于大模型的rerank模块
对于人,条款,场景等关键内容向量化模块进行训练,增强检索效果。数据构造时可以采用假设回答弥补query 和答案之间的gap,训练的目标,即包含准确性,也包含多样性。
4.用意图识别和deepdoc补全复杂query多库搜索的路由模块
和deepsearch一样,query可能混合多库检索需求,或者混合精确查找和语义查找,用deepdoc进行query改写和查询规划,实现复杂查询。
亮点三: Agent做计划,三种策略满足不同场景。
| 模块 | 专业名称 | 通俗理解 |
| 思考大脑 | 推理模型选型 | 给Agent一颗“聪明的大脑”,能理解、推理、做计划,比如K2、QwQ-32B 等模型 |
| 记忆&工具箱 | 数据索引与搜索能力 | 让Agent知道自己有哪些“工具”和“资料”,包括业务逻辑、工具接口、API文档等 |
| 思考方式 | 多路径规划策略 | 像人一样换角度想问题,比如树形思考(ToT)、图形推理(GoT)、深度搜索等 |
| 学习与改进 | 后训练与奖励优化 | 用训练数据强化目前能力达不到的部分,让Agent下次做得更好(用奖励、反馈、人类偏好来训练它) |
和人做计划一样,agent做计划,也需要以上四个模块,规划阶段的目标是生成一个高质量、可执行的计划。挑战在于:
我们混合使用三种方式实现意图识别和流程规划
策略一:基于提示词的流程编排和自主规划
| 流式 |
![]() |
| 路由 |
![]() |
| 聚合 |
![]() |
| 编排 |
![]() |
| 方案生成 |
![]() |
( 以上图片来自网络,侵权请联系作者删除)
将意图识别和流程反思规划的所有部件和流程写在代码或者提示词里。像上面的表格所示的流程编排,可以互相嵌套,实现很大的复杂性和可控性。适合容错率低,回复时长要求高的场景。
也可以采用纯自主agent模式,如下图所示:利用React,preAct 模式,形成 “plan → act → revise plan” 循环,进行更自主的规划。适合容错率高,回复时长要求低的场景。

部分固定用途的模块,如意图分类,工具选择和参数提取等,可以训练小的语言模型来实现更好的性能和准确性。
策略二:基于搜索增强的层级规划
这个链路适合海量工具和复杂环境的情况,可以大大减少模型的上下文压力。
基于搜索增强的知识组织及灵活层级规划流程:
策略三:基于RL的自主编排
这个链路适合环境随着agent行为改变比较剧烈的长程规划。我们以赋予智能体“从实践经验中自主学习、持续进化”的能力为核心目标。基于强化学习的模式以最终结果的奖励信号为核心驱动,通过 “行为 - 反馈 - 奖励” 的闭环持续优化策略,这种从结果倒推优化方向的逻辑,与人类 “从实践结果中总结经验、调整决策” 的认知本质高度契合。
智能体的执行过程RL抽象过程:
在关键决策点记录下系统的状态 (State),并明确是什么调用 (Call)触发了从一个状态到另一个状态的转变,捕获这一系列
(状态 -> 调用 -> 新状态)的序列。
状态(State):在任务 x 的第 k 次执行中,时间步 t 的状态由一组变量构成:
调用(Call):一次完整的执行由 N 次调用组成:
其中第 i 次调用的结构为:
状态与调用的关系:
带奖励的执行轨迹(Execution with Reward):将奖励信号加到每次调用上,得到可用于学习的完整轨迹:
最终将智能体的复杂执行过程抽象为标准的
(component, input, output, reward)序列,在智能体的具体实现逻辑与通用的RL训练算法之间架起了一座桥梁,实现了二者的解耦。
应用展示:
| 基于功能模块名称 | 模块功能介绍 | 技术方案 | 方案测评 |
| 基于页面的意图识别 | 1. 工作流匹配:根据业务系统页面dom数据精准匹配工作流; 2. 参数获取:提取业务系统页面结构化参数,智能询问用户参数; 3. 任务分发:动态调度四个业务子Agent(商详、延保、实验方案、实验报告) | 词频匹配算法Embedding匹配 大模型提示词 | 词频匹配算法冷启动: 准确率100% 耗时10ms之内 |
| 基于对话的意图识别 | 1. 任务分发:根据用户对话和历史上下文,精确感知用户当下意图,动态编排四个Agent多轮对话; 2. 参数获取:智能询问参数信息、准确提取对话中的参数。 | 大模型提示词 | 300ms内完成参数获取、Agent调度 |
| 基于用户历史行为的意图推荐 | 1. 工作空间推荐:根据用户在业务系统的历史操作事件,多组织权限下工作空间精准推送。 | 个人、群体、全局意图序列建模 | 20ms内完成工作空间推荐 |
| 生成式意图推荐 | 1.根据页面数据和对话信息推送三个用户可能的意图。 | 大模型提示词 | 无 |
| 纯自主路径规划的意图识别 | 根据对话生成执行计划 | React,大模型提示词 |
|
亮点四:如名称Eva(进化)所暗示,架构设计重点保障成长性。

Eva Agent模块:
包涵四个主要部分:
大脑外挂——记忆模块,让 Agent拥有从经验中学习的能力;
知识外挂——知识库,让 Agent拥有调用外部知识的能力,让Agent的决策更加可控,准确;
手外挂——工具模块,让Agent可以方便的使用各种工具来完成自己的任务。
脚外挂——行为模块,让Agent系统完成与浏览器提供的各种操作。
外界任务进入后,Agent通过计划模块将任务拆解为各子任务流程,分派给各专业Agent进行推理。专业Agent调用历史记忆,知识,工具等模块作出决策响应。最后调用行为模块,产生最终行动,作用于EVA浏览器。反思模块再根据浏览器和业务系统的反馈,结合Agent运行产生的记忆,调整优化Agent行为。
经验及时积累,基于self-play 的RL模型进化。
一个自主交互式agent系统,一定要实现自身的进化和成长,不然不足以应对复杂多变的业务场景,而设计一个能从自身和人类经验中学习的系统,是最关键的一步。我们的自主交互式系统如下:

通过这一整套流程,AI Agent才能在高精度、高风险的任务中,做到既准确又安全,最终成为一个值得信赖的数字员工。
经营结果及时反思,基于智能体角色的离线反思系统设计,实现面向收益和规模的Agent自主优化。
基于结果反馈的离线反思,对于效果也非常重要。

迭代过程:
1.初始化:这个基础版本的智能体们被赋予了预设的角色、目标和工作流程。
2.执行与评估:执行智能体按照基础配置运行,各司其职,完成任务,产生输出。这些输出接着被评估智能体拿去评估,对照着定性和定量的评估标准,打出一个分数。这个分数就反映了系统当前的性能水平。
3.优化 :优化主智能体分析评估结果,找出改进点。修改智能体 采纳改进方案,调整审核流程 & 规则,AI 评分阈值 & 决策标准。
4.新变体执行与评估:新的系统变体由执行智能体运行,产生新的输出。这些新输出再次被评估智能体评估,打出新的分数。
5.选择与迭代:选择智能体比较新旧变体的分数,如果新变体得分更高,那就说明它更优秀,就把新变体选为最佳变体,替换掉旧的。然后,系统就以这个新的最佳变体为基础,继续进入下一轮的迭代。如果新变体得分没有旧的好,或者提升的幅度很小,低于预设的一个阈值,那系统就会停止迭代,因为这时候再改来改去意义也不大了。当达到最大迭代次数时,系统也会停止。最终,系统会返回最佳变体及其输出,这个最佳变体就是经过多轮迭代优化后的最优系统版本。
3.经验回顾,什么是成功落地关键点?
落地项目,不仅仅是技术问题,这些技术亮点,大多数时候并不是成功的关键。回头反思,我们能顺利落地这些项目的关键,是有一个支持我们的系统。
1.算法向前一步,深入拆解业务,进行AI时代打法设计,搞定高定场景。
纸上得来终觉浅,绝知此事要躬行。尽管我们做了非常多抽象,高定场景业务细节需要算法躬身入局,仔细拆解。
在AI时代,算法了解AI,还需要了解业务。下文我们会仔细分解:定品-定价-履约-风控的目标和打法,与传统时代有啥不一样?看看为啥说理解业务,才是AI落地最关键的一步。
2.前、中、后台设计,助力全链路Agent覆盖
Eva智能浏览器:服务于保险业务各环节,实现与现有保险生产系统的⽆侵⼊集成,打开Eva浏览器自动具备AI助手功能,加速业务系统实现AI化升级
通过Eva浏览器打开业务系统,实现无侵入、低耦合采集业务系统页面数据,识别当前用户意图;记录学习用户操作行为,自动生成推荐工作空间。进入空间通过流程编排和多Agent调用,完成AI辅助工作。支持AI对话,多模态输入完成意图识别,调用多Agent精准输出结果,或推荐用户进入相关工作空间快捷开始工作。
Eva智能工作台:打造人与AI教学相长的协作模式,支持快速、高效的业务知识输入和智能体创建,支持AI决策过程的可观测、可运营、可接管,建设透明、可信的智能体过程
![]() | |
| AI专家区 | ·通过训练,达成可上岗标准的Agent,围绕具体的场景开展工作; ·即可单Agent开展工作,也可通过多Agent协同,完成复杂工作; |
| AI工作区 | ·实时更新案件信息,Agent 7*24持续开展工作; ·输出Agent思考过程与决策要点; ·人可实时查看Agent执行过程,对Agent执行偏差的案例做出反馈,帮助Agent反思成长; |
| 结果与回放 | ·执行结果同步进行展示,人可查看案件明细; ·Agent执行过程可回放,人可对Agent执行过程进行质检; |
Eva智能体引擎:融合原算法引擎高效的数据->特征->规则->模型->编排的全链路能力,支持灵活的智能体搭建功能,支撑业务落地过程的高效、稳定
3.探索出AI时代的分工,大家搞,才能真的好
我们正从简单反应性 prompt 工程时期,走向更强自主性的多智能体上下文工程时期,在这个事情,我们探索出来的最佳分工是:
1.LLM的优化算法的事情。
2.提示词工程是大家的事情,归根结底是业务的事情。 上下文工程现阶段是算法和研发的事情,归根结底是业务和研发的事情。
3.知识库是研发的事情,知识库需要产品化设计,知识库的组织需要数据团队的设计,知识库维护业务的事情。知识的召回,检索是算法的事情。
4.工具建设(mcp,serverless) 是研发的事情,工具灵活调度是算法的事情。
5.多agent的编排调用是业务的事情,agent的自主调度是算法的事情。
6.agent的测评是算法和测试的事情。
7.agent的反思,进化是算法的事情。
以上分工适合当下情况,agent是个快速变化中的技术,可以预见需要以后机动调整。
二、AI定品
1. AI时代直面业务增长的AI定品能力是怎样的?
看场景:
以延保为例,延保服务产品,1款产品0-1产生约10天+,涉及业务、产品精算、合规等,约至少4~6人协作,还要考虑后续监控,经营,履约成本。目前受限于生产方式,当前平均GMV渗透为0.0x%,只覆盖保费规模非常大的传统品类。
1.大量此前未覆盖的蓝海品类需进行快速延保产品设计上品覆盖;
2.成千上万保费规模非常小的场景,可以由agent去提升覆盖率;
3.定品不是一锤子买卖,当一款品卖的不好,或者超赔时候,及时下架,改价格或者调整条款。
得结论:
AI时代的定品——追求的规模
toC——实时直面用户需求的个性化产品定制。
toB——风险点地毯式搜索,覆盖的产品定制—— “品海”;定品不在是在某个时间点发生,而是通过“ 自主运营”持续不断的 改品(改条款,改价格,改上架状态),直至好品产生 。
这将改写之前的定品逻辑,产生规模收入。
2. 保险定品的技术设计
技术亮点:deepsearch获取网络信息 + 多维特征深挖场内信息+ 滚动更新保障信息实时 (我们的方案很好的利用统计信息来撬动大模型的创新性)

3. 当前进展和取得的效果

三、AI定价
1.从目前业务模式出发,直面业务结果的保险定价能力是什么样?
风险预估准:预估偏差不高于2%,基于海量数据和机器学习算法,建设千X千面动态定价能力;
经营调整快:全方位监控实时调整,基于经营预测和运筹优化,从被动调整转为事前主动预防;
报价效率高:从询价到报价不超过1分钟,用Agent重构询报价流程,建设高效自主的定价专家;
基于AI打造保险行业内 预估最准、调整最快、效率最高的定价能力,支撑业务 放开手脚、尽情展业
借数据+算法推动业务规模增长,降低边际 成本、优化用户 体验、提升展业 效率,最终 驱动订单渗透率、利润等业务核心结果同步增长。

。
2.为什么风险预估准、经营调整快、报价效率高是驱动规模增长的关键?
从整个保险供应链来看定价位于产品生产之后位于营销交易之前,其合理性直接影响规模和利润。定价需要通盘考虑 保障责任、履约方式、运营成本等多个环节。 精准性是基石,快速调整护航经营结果,效率是生产力。
保险定价与实物商品差异点就是,保险定价以 风险概率为核心。前者聚焦可见的 “实物成本”,后者紧盯抽象的 “不确定风险”。 而风险的动态变化和不确定性也为展业和定价带来巨大挑战。


3.直面结果的保险定价Agent怎么做?
采用自底向上的建设模式,先夯实底层能力/工具,再建设顶层Agent
之所以采用自底向上的 Agent 建设模式,核心原因在于:当前Agent 无法完全代理核保、精算、经营等领域专家做出自主决策,也难以独立完成两类关键任务 —— 一是海量数据下基于机器学习的精准预估,二是百万商家/千万商品下的运筹求解。因此,我们的方案聚焦于 “先夯实底层工具能力,再搭建顶层Agent 交互体系”,分步实现能力落地。
AI定价专家:通过多智能体协同,模拟人类决策逻辑,解决定价不准、经营难、效率低等问题

很多算法面临的困局——Agent如何与机器学习、运筹和数据协同?
ML、OR、Data都可以被Agent调度,都可以是Agent的工具,各司其职
定价Agent:顶层智能体,负责与人交互、整体调度、协调。
机器学习:被Agent调度,用于数据分析和模型预测。
运筹:被Agent调度,用于优化决策和资源分配。
数据:被Agent、机器学习和运筹优化共同调度,作为共享资源。
大模型自主运筹探索和调研
在大模型自主运筹能力的探索与调研中,我们通过对比多款 “基模”在运筹学领域的表现,并针对 7 个挡位的调价场景模拟不同决策粒度后发现: 当前基模仅能在小规模问题中呈现较好效果,难以在细粒度决策问题中实现最优化求解。此外,保险定价本身需基于大数定律开展各类杠杆测算,综合考量业务目标达成、ROI等核心因素后,我们最终确定采用 “自底向上” 的能力建设思路。
3.1Master Agent:系统 “大脑” ,承担业务交互、意图识别及任务调度核心职责,是全流程协同的中枢

| 功能模块 | 核心能力 | 技术点 |
| 用户意图识别 | 解析自然语言需求,区分常规知识咨询、询价请求、方案调整等核心需求 | 微调模型,联上下文记忆 + 反思,秒判意图 |
| 责任范围判断 | 校验保障责任是否符合公司承保范围,排除不可保责任 | RAG+DeepSearch/DeepDoc,对接知识库,精准校验责任 |
| 报价要素匹配 | 从需求中提取七要素,标记缺失项并引导用户补全 | 模型微调,借 DeepDoc+RAG 消歧,联记忆补要素 |
| 子任务调度 | 根据意图识别分配不同的工作流 | 反思复盘 + RLHF,最优调度 |
| 整合结果输出 | 将核保方案、精算费率、经营建议整合为标准化报价结果 | RLHF 模型对齐,RAG+DeepDoc 取依据,联记忆 + 反思出结果 |
3.2核保Agent:“风险审核与方案优化专家”,以风险可控为前提,探索更具竞争力的报价方案,平衡定价风险与市场竞争力


3.4精算Agent:“定价计算核心引擎”,依托海量数据与机器学习模型,输出科学且可解释的费率表,为报价精准性提供坚实保障

风险预估准:预估偏差不高于2%,基于海量数据和机器学习算法,建设千X千面动态定价能力
在当前保险场景下,随着海量数据持续积累,传统精算方法已难以满足精准、高效的定价。为此,需基于商家经营、产品画像、用户行为、承保履约等多维度数据,结合机器学习技术,构建 “千X千面” 的动态定价体系,最终支撑业务规模与利润的双增长。
打法3(多模型融合预估):分别建立近7天、10天、15天出险率预估模型,将多模型结果统一校准至满期90天口径,有效提升稳定性和通用性通用性:可快速实现不同保险期间的千店千面定价,定价效率从数月→周级别
通用性:可快速实现不同保险期间的千店千面定价,定价效率从数月→周级别

打法1(大模型挖掘非结构化特征):基于商品详情页、保障责任、履约方式等数据,借助大模型多模态能力,将非结构化数据转化为结构化特征
打法2(多产品线联合建模):针对出险率与赔款预估的样本选取及模型构建,不再依赖经验进行产品线间的物理隔离,而是对质量、意外、全保等多个延保产品线实施联合建模,进一步提升整体预估精准度
| 出险率预估 | 赔款预估 |
![]() |
![]() |
打法3(实时报价捕捉风险):以 “特征-模型-系统” 为核心,深挖风险特征,快迭代特征体系与定价模型,辅以实时询报价系统,敏锐捕捉风险,强化定价准确性与稳定性

3.5经营Agent:“价格运营与策略中心”,以全局视角监控定价全流程效果,为经营决策提供支撑,保障定价与业务目标对齐


全方位监控实时调整,基于经营预测和运筹优化,从被动调整转为主动预防
在当前经营中,不仅会因风险预警滞后,让正常的业务经营错失干预时机,还可能因对未来经营趋势判断不足,错失规模扩张窗口与利润优化空间,最终陷入 “ 调整永远赶不上变化” 的被动局面。
为此,我们建立了一套贯穿 “ 实时风险感知 - 未来趋势预判 - 科学策略输出” 的全链路闭环管理机制,最终实现 从被动应对到主动预防的跃迁。
1)经营实时监测:搭建实时、多维的定价数据罗盘及主动触达机制,防患未然
2)未来经营预测:以历史经营数据结合实时监测指标为基,用机器学习预估经营关键指标,提前识别风险和机遇,实现从被动调整到主动预防的转变
![]() |
y^t(Key operational indicator on day t)Xhist=[xt−90,xt−89,...,xt−1]Xext=[ht,pt,st,wt]y^tProphet=fProphet(Xhist,ht)y^tLSTM=fLSTM(Xhist)y^tTransformer=fTransformer(Xhist,Xext)y^t=ω1⋅y^tProphet+ω2⋅y^tLSTM+ω3⋅y^tTransformerω1+ω2+ω3=1(ω1,ω2,ω3≥0)
y
^
t
(
Key operational indicator on day
t
)
X
hist
=
[
x
t
−
90
,
x
t
−
89
,
...
,
x
t
−
1
]
X
ext
=
[
h
t
,
p
t
,
s
t
,
w
t
]
y
^
t
Prophet
=
f
Prophet
(
X
hist
,
h
t
)
y
^
t
LSTM
=
f
LSTM
(
X
hist
)
y
^
t
Transformer
=
f
Transformer
(
X
hist
,
X
ext
)
y
^
t
=
ω
1
⋅
y
^
t
Prophet
+
ω
2
⋅
y
^
t
LSTM
+
ω
3
⋅
y
^
t
Transformer
ω
1
+
ω
2
+
ω
3
=
1
(
ω
1
,
ω
2
,
ω
3
≥
0
)
|
预测目标:未来N天每天的 整体出险率、 保费收入、 赔付支出等。
核心算法:
Prophet:非常适合具有强季节性、节假日效应的时间序列数据,且对缺失值和异常值稳健。
LSTM:深度学习模型,能捕捉更复杂的长期依赖和非线性模式。
Transformer:可融合外部变量,实现多变量时间序列预测,精度极高。
输入特征:
历史序列:指标过去90天的历史值。
外部变量:是否节假日、是否大促、实时异常信号、天气预报数据。
3)经营策略制定:结合经营预测结果与既定经营目标,通过运筹优化与沙盘模拟,输出科学决策方案 ,切实提升经营决策的效率与精准度
![]() |
运筹模型:
问题定义:在约束条件下(如大家电赔付率0.80~0.85),求解决策变量(商家保费调整系数),使得目标函数(规模)最大化。
数学表达:
max∑i=1n(Pi⋅Qi(Pi)−Ci⋅Qi(Pi))s.t.∑i=1nQi(Pi)≥Qmin∑i=1nPi⋅Qi(Pi)∑i=1nQi(Pi)≤PmaxDI≤δ
max
s.t.
i
=
1
∑
n
(
P
i
⋅
Q
i
(
P
i
)
−
C
i
⋅
Q
i
(
P
i
))
i
=
1
∑
n
Q
i
(
P
i
)
≥
Q
min
∑
i
=
1
n
Q
i
(
P
i
)
∑
i
=
1
n
P
i
⋅
Q
i
(
P
i
)
≤
P
max
DI
≤
δ
其中:
Pi
P
i
: 第i个细分市场的价格;
Qi(Pi)
Q
i
(
P
i
)
: 价格弹性函数,预测价格变化带来的需求变化;
Ci
C
i
: 第i个细分市场的单位成本;
Qmin
Q
min
: 最低销量约束;
Pmax
P
max
: 最高平均价格约束;
DI
D
I
: 差异影响指数,用于公平性约束、
δ
δ
: 公平性约束阈值 |
3.6从询价到报价不超过1分钟,用Agent重构询报价流程,建设高效自主的定价专家
在保险询报价场景中,展业人员提交需求后,需 反复对接核保沟通风险、等待精算测算费率、同步经营端校验,不仅报价 周期长,还因人工经验导致定价偏差 —— 既 错失商机,又难平衡风险与市场竞争力。
以询报价Agent为核心彻底重构询报价流程,大幅提升效率。
询报价Agent:Workflow与ReAct相结合的模式,保障稳定性同时具备自主性
7x24小时延保询报价Agent,为用户提供了 分钟级报价、 方案调整建议、信息查询、 知识问答服务。以京Me/Max/PC为载体,通过自然语言交互支持灵活展业,极大提升展业效率。
4.未来我们怎么做?
建设AI原生的定价范式,驱动规模、利润和体验大幅提升
经营预测:逐步由机器学习升级为 AI 原生大模型预估,攻克数据稀疏、模型拟合不足和泛化能力弱等痛点。
智能决策:围绕自动建模、加速求解和可解释性构建运筹大模型,解决运筹建模难、求解慢及难解释等痛点。
端到端决策:建立端到端决策模型,解决先预测后优化误差传递放大和大规模交易场景无法实时决策等痛点。

( 以上图片来自网络,侵权请联系作者删除)
数据:多源数据底座
聚合保险、集团内部、外部三类数据,为后续模型提供产品线、供应链、市场环境等全维度、多场景的信息基础,支撑复杂业务下的预测与决策需求。
模型:“经营预测 + 智能决策” 双大模型协同
经营预测大模型:基于多源数据,通过 “特征融合” 整合产品线、供应链等海量业务数据,以 “多任务 + 多目标” 基座模型为核心,再经SFT适配业务场景、RLHF迭代优化,最终得到性能更优的模型。该流程实现了从传统统计学模型到机器学习大模型的技术升级,解决了 “拟合能力不足、泛化性差” 的痛点。
智能决策大模型:遵循 “问题描述→数学模型→垂直场景标签→代码编写→模型求解” 的流程,针对运筹优化场景,结合线性规划、整数规划、启发式算法等方法,实现 “自动建模(降低人工经验依赖)、加速求解(多算法适配不同复杂度问题)、结果可解释(垂直场景标签增强业务可读性)”,破解 “运筹建模难、求解慢、难解释” 的痛点。
端到端:OneModel一体化决策闭环
通过动态规划(DP)、统计方法、策略规则等生成监督标签,基于 “多特征输入(m-fea)→共享特征(share fea)→多子模块(sub1/sub2/...)→多输出(op1/op2/...)” 的 E2E 网络架构,搭配多目标损失函数(如 MinSum 融合 MSE 等指标),直接完成 “数据输入→决策输出” 的一体化过程。这种设计既避免了 “先预测后优化” 流程中误差传递放大的问题,也满足了大规模交易场景下的实时决策需求,实现了端到端决策的闭环。
四、AI履约
1. 直面业务增长的AI履约能力是怎样的?
履约成本一定程度决定定价能定多低,从而影响规模,AI时代的履约就是要直面业务指标和约束,追求的成本降低。
核心打法——打造多智能体协同的履约AI Agent,理解保险条款,履约方案、申请材料,面向结果(通过or拒绝)决策,决策效果更好(精准性90%+)、决策成本更低(分级)、决策效率更高(产能无上限)

2.保险履约的技术设计

从生产系统调度AI Agent走向AI Agent调度生产系统,通过数据流转互联互通

双盲验收测评,分阶段推全上线。
3. 当前进展和预期
经过抽检与测评,履约理赔AI已全量应用过期赔理赔场景,审核准确率94%+;AI审核覆盖业务单量占比95%+,运行稳定,单均审核成本0.02元;得益于审核范围的全量覆盖,对黑灰产与羊毛党起到震慑作用,理赔申请单量与理赔金额持续下降。
五、AI风控
1. 结合保险业务特点,AI驱动的全链路风控体系应该是什么样?
建设覆盖保险全链路的AI风控体系,实现从风险发现到风险处置的全流程自主高效,让保险业务的发展没有黑灰产和羊毛党的后顾之忧。
保险业务流程:

2. AI驱动的全链路风控应该怎么做?
当前业务背景及痛点:
保险业务复杂,链路多、周期长:保险业务复杂,各险种业务模式差别较大,整体链路和周期长:包括产品定价、签约、核保、承保、理赔等主要环节。
业务发展迅速,欺诈风险持续存在:保险业务整体发展迅速,像延保、30180等业务规模不断扩展下,也给黑灰产、羊毛党可乘之机,其业务中存在相关欺诈风险,风控侧亟需治理。
黑产变形持续对抗:随着风控侧和黑灰产的对抗,像运费险、晚到赔等业务下,黑灰产攻击手段持续升级,呈现出 技术专业化、行为隐蔽化、攻击规模化的特点,风控侧须持续迭代模型,以抵御黑产攻击,保障业务健康。

2.1 核保风控:在耗时要求下, 以异步方式应用模型识别结果 ,预防风险发生。
特点: 核保风控环节流量大(核心险种QPS超1000)、耗时要求严苛(响应需≤20ms),无法直接应用模型实时预测风险。
思路: 采用 “预计算+实时调用” 模式,先通过模型提前完成风险识别与判断,将结果转化为标准化标签;核保流程中直接调用预生成标签进行决策,既充分发挥模型的风险识别能力 ,又满足时效要求,实现风险提前预判。
打法一:通过数据分析挖掘,构建核保环节特征体系,以规则布控预防风险。
针对 已知、明确、高确定性 的风险模式,依托完善的核保特征体系,使用实时规则进行拦截,做到高效精准。
打法二:结合策略命中及无监督模型挖掘的风险,通过关联分析形成风险名单库。
通过关联分析 发现 个体背后隐匿的群体性风险 和 关联风险 ,将分散的风险点串联成网,形成动态共享的风险名单库。即使黑产更换了身份证、账号,只要使用了相同的IP、设备或联系方式,依然能被迅速识别出来。
2.2 理赔风控:建设实时大模型理解与预测能力,对已知风险评级,及时阻断风险。
特点:该环节是保险风控的重中之重,直接决定业务利润空间的大小,对于欺诈理赔请求,直接进行风险拦截可转化为成本节约。相较于核保风控环节,该阶段对耗时的要求稍有放缓,允许我们通过 实时模型进行风险决策,并且能够使用比较复杂的模型进行实时识别和风险阻断。
思路:
治理阶段:

打法一:规则风控,结合多维度的风险表现,构建完善的特征体系,通过灵活高效的规则布控快速拦截风险。
规则风控主要基于明确的风险表现,将 “风险判定逻辑” 转化为可执行的条件,直接使用规则结果进行拦截,并根据黑产的变化可以灵活快速调整,规则风控承担着 “第一道防线” 的关键角色,主要特点是 “看得见、可解释、易调整”。通过构建完善的风控特征体系,可以覆盖保险业务的风险表现,基于规则引擎进行规则策略的快速布控。不同规则的布控,需结合业务特点和黑灰产的风险表现。详情如下
打法二:小模型风控,利用小模型的成本优势,可以保障风控效果,提高泛化。
当各业务的风控规则积累到一定厚度后,有一定量级的标签和特征数据,可以针对特定场景和风险进行轻量级模型的构建,提高风险对抗的鲁棒性,并进一步增强风险识别的泛化能力。根据模型的作用不同,小模型风控主要包括 功能型和 决策型两类:

打法三:大模型风控,基于大模型的通用世界知识及强大的学习理解能力,通过多维度数据融合进行风险决策。
基于小模型进行实时决策,依赖特征工程,在保险业务风控中,通过大模型决策,可整合多维度数据(请求数据、统计特征、行为序列、用户画像等),具备更强的泛化与决策能力,并且仅需少量级的标注数据就可以取得不错的效果。
通过大模型进行实时风险决策,主要思路从欺诈行为的本质出发,捕捉 违反业务逻辑(物流时间异常、物流无轨迹)、 用户行为异常 (高频理赔、切换设备)、 团伙关联 (BC联合、共用设备/IP)、 虚假交易 (虚假地址、虚假发货、伪造物流单)以及后续新型欺诈等多类风险信号,可以通过如下阶段:
大模型风控实时决策流程:

2.3 追偿风控:基于跨时空的数据,通过大模型的归纳能力,及时发现未知风险,主动追偿。
特点:该阶段由于欺诈已经发生且未知,证据链隐藏在跨时空的海量数据中,重点在发现团伙欺诈和未知欺诈模型。对耗时没有硬性要求,可利用的数据最为全面,广度上可使用多域数据(保险、零售、科技、物流、健康、外部数据都可以),深度上可使用跨时空数据(欺诈发生时刻、发生之前和发生之后的数据都可使用)
思路:以擅长总结及归纳的无监督算法及大模型为主,同时也要兼顾该环节挖掘风险结果的使用,可通过不同颗粒度的时效进行应用,以反哺其他风控环节。
打法一:通过数据统计及关联分析方法,挖掘明显的作案风险。
主要通过对“电商交易 - 保险行为 - 跨域关联”全链路数据的深度分析,识别隐藏的欺诈模式、不合理赔付风险等,包括单维度异常识别和多维度关联方法等。
打法二:通过无监督算法,发现具有一定规模及隐蔽性的风险模式。
主要是从无标注的海量数据中,自主发现隐藏的风险模式(如欺诈团伙、异常群体等),无需依赖历史欺诈标签。主要包括社区发现算法等。
团伙挖掘:

3. 当前进展和取得的效果
核保风控:目前以标签的形式周期性应用模型结果,小时级别进行团伙挖掘,自动应用于签约、核保等环节,已在运费险、外卖险、质保金等业务应用。
理赔风控:实时反欺诈模型、异常图像识别模型、社区发现模型等在保险核心业务场景应用,并实现实时大模型风控在保险及集团的应用。
追偿风控:目前社区发现算法、关联方法等应用在运费险、外卖险、延保等主要险种,可以实现分钟级别的更新及应用,可支持打击侧同事近一步分析及追偿,同时将风险结果以标签形式应用于线上。
4. 未来我们怎么做?
4.1 夯实核心环节的风控能力,并扩大应用覆盖范围
核保风控:结合多模态数据,通过大模型预测风险概率,生成标准化标签。离线形式下,不再孤立处理数据,将核保、理赔、追偿环节中的结构化数据与非结构化文本、图像数据融合,通过大模型进行深度关联分析与推理, 生成远超单一数据维度的、具有高预测价值的风险概率标签。
理赔风控:完善覆盖欺诈本质的语料知识库,通过多模态数据融合提高大模型风控的风险识别能力。同时,构建保险通用风控大模型,只需针对特定业务风险微调模型即可快速应用。
追偿风控:基于知识图谱和大模型,挖掘具有关联性的隐性及潜在风险。知识图谱具有结构化的特点,有可推理能力,大模型具有语义理解及生成的能力,将二者结合起来可以提升风险挖掘的深度和广度。
业务覆盖:扩展当前风控能力的覆盖范围,实现核心业务险种的全覆盖。
4.2 实现全流程自主高效风控,通过各环节协同达成风控闭环治理
基于多智能体协同实现保险全流程自主风控体系,其核心是建立一个中央指挥智能体— 风控Master Agent,像“风控大脑”一样统筹调度 核保、理赔、追偿 各子环节 Agent。整个运作机制形成了一个“ 感知-决策-执行-评估-优化”的强闭环,使系统能够不断自我迭代。
通过风控Master Agent统筹调度核保、理赔、追偿各子环节Agent,实现从全局感知、智能决策、协同执行到效果评估的闭环自治。
全流程自主风控:

六、回顾
以AI驱动的保险供应链X产品线25年为业务带来15%+利润

七、展望
结果第一:
1.夯实保险B端供应链Agent建设, Agent带来的直接利润占业务总利润 30%以上。
2.toC 场景发力,保顾,客服数字人服务客户,拓展规模。

3.在持续沉淀toB能力基础上,打造200+AI数字员工,大幅降低边际成本、提升运营效率。


技术为本:
?1.持续优化自主Agent系统,让Agent更加AI Native,更加智能。









