很多数据团队都在进行大模型应用的尝试,大家都认为这是一次机会。前段时间有幸参与了一场AI大模型的制造业应用研讨,记录下实现过程面临的挑战与解决思路:
第一,思考“why”和“what”,寻找最合适的,最细分的业务场景。
很多想搞大模型的团队,其实是缺乏业务场景的。比如数据团队相对于ERP、CRM、HR、OA等业务团队,那应用场景就少太多。对于数据团队来说,数据管理、数据分析本身就是一种业务,因此ChatBI、ChatSQL等都是可以尝试的方向。
即使有了方向,也要想清楚在哪个合适的业务场景进行切入。很多研究ChatSQL的数据团队设想的场景是:业务人员嘴巴一说,SQL就写好了,接着取数和报表呈上来了,然后大家就解放了。可是真正去一线看,需求场景是这样的吗?
我们并不否认数据团队要往ChatBI、ChatSQL这些方向努力,但一定要分析清楚企业什么样的角色、针对哪些特定的报表/指标/取数场景,有简单的、高频的这类分析需求,比如为某类渠道人员提供灵活的特定考核指标的生成能力,鉴于受限的开源大模型能力,场景的选择还要越细越好,因为简单能降低对技术的要求。
所以,对于各种“ALL IN AI”的说法,大家看看就好,回到企业,还是要“业务为王,场景细分,谨慎入局”。
第二、想清楚who来做,大模型应用的成功概率与业务参与度成正比。
大数据刚起来的时候,技术人员是最有激情去做大模型应用的,现在各种技术大佬都在宣传大模型,好像这就是技术界的盛宴。但普通企业做大模型应用,还是要回归商业本质,就是为了赚钱或者提升效率,因此,一定是要让懂业务的人员来进行方向的把控和场景的选择。
例如,针对报表取数这种场景,一定是需求部门走在最前面,由他们去担任产品经理,不懂大模型也不要紧,边干边学就可以。但光有懂业务的人、没有数据团队的支持也不行,因此一定要做好业务团队和数据团队的协同,组建跨专业的项目团队是一种可行的方式。有条件的企业如想搞大模型,一定要想清楚如何优化组织架构以适配新的生产力的要求。面对这一波生产力革命,组织一定要进行变革。一个企业搞大模型应用成功的概率,与这个企业当前调动了多少业务力量成正比,与业务和数据协同的深度成正比。
第三,想清楚how,而语料是企业大模型应用成功的决定因素。
做大模型,场景+算力+算法+数据缺一不可。现在各类基础大模型“你方唱罢我登场”,都是为了争取生态位置,跟大多数企业没啥关系,基础大模型成为不了企业大模型的竞争力,你要做的就是做好测试和选择,不同的基础大模型在不同业务场景的表现可能天差地别。
所以我们认为,决定大模型成功的关键因素,是语料+微调能力。微调能力随着各种平台工具的推出,门槛会越来越低,直到大家都差不多,预计这种平台马上会成为红海,当前现在还是比较稀缺的。除非这个语料是所有通用基础设施都提供不了的,它是企业特有的生产资料,这种特有的生产资料创造了特有的生产力,体现了企业领域大模型独一无二的价值。
但现实情况是,大多企业并没有做好自身语料的准备工作,未来越来越多的企业会深陷“巧妇难为无米之炊”的困境,根本原因是数字化水平低了,或者数据治理能力不够,这将极大限制企业大模型的应用拓展和深化。
语料与数据治理:
首先,AIGC需要的语料大多是非结构化数据,但大多企业对非结构化数据的的管理能力非常薄弱,大量的非结构化的日志数据没有保留,大量的文档数据散落在各个系统。比如我们团队虽然已经做了多年的数据治理,但也仅仅是把结构化数据管好了,但非结构数据的记录、采集、解析还处于刚起步的阶段,我想大多数企业的大模型团队都会有“数到用时方恨少”的感叹。
其次,大量的业务系统都是匆忙上马,关于业务系统本身的元数据信息极度缺乏,没有任何Chat的基础,准备语料的工作繁杂而艰巨,而由草台班子构建起来语料准备团队很难保证数据的质量,而低质量的语料又很容易导致很差的微调效果。对于大多数企业来讲,这是一个大模型语料数据极度匮乏的时代,我们以前以为把系统和应用文档写好了聊胜于无,大家都是实用主义,急着上线,现在发现原来它们是全面智能化的基础。
最后,语料的梳理和完善是个苦活累活,现在非结构数据的管理还是个技术活,企业如果没点基本的数据治理能力和技术能力,门槛还是挺高的。比如做错别字大模型,为了高质量语料可能要处理上万的文档,前后耗费几个月时间也是正常的,每次大模型应用在数据准备上的代价太大了。
李彦宏说出了未来应用都可以用大模型重构一遍的论断,意味着企业所有的应用的数据采集模式需要重构一遍。未来数据治理的要求会贯穿在任何一个应用的构建过程中,不留存数据不允许应用上线还真的成为了可能,这凸显了企业数据治理的巨大价值。
大模型时代,数据团队最重要的一个工作,就是把公司的大模型数据集供给体系建立起来,这一定是大模型应用的最重要的基础,而有没有足够的语料,将成为企业评判是否要上马一个大模型应用的黄金标准,数据团队真的是三生有幸,每10年都碰到一次建功立业的机会。
在大模型应用上,想清楚为什么做,做什么,由谁来做,怎么提供生产资料,这是大模型应用建设的大道,这些工作,大多时候比攻克一个技术难题重要的多。