导读

为了简化私营公司数据的获取、整理和分发过程，标普全球需要更快速、更大规模地处理大量数据。在本次会议中，了解标普全球如何高效地每日处理100太字节的数据，优化内容整理并实现下游信用和风险评分。探索标普全球如何使用Amazon SageMaker微调基础模型，以及他们如何在Amazon EKS上部署和扩展这些模型，每周运行高达600万次推理。深入了解在Amazon EKS上托管和扩展微调基础模型的业务挑战、技术实施和经验教训。

演讲精华

以下是小编为您整理的本次演讲的精华。

本次会议由亚马逊云科技解决方案架构师Prashant Purnaut主持。他首先进行了一次调查，了解与会者在微调基础模型或大型语言模型用于双重用途和AI实现方面的情况。然后，他概述了客户如何利用亚马逊云科技可扩展、安全和弹性的数据基础设施在上面构建生成式AI解决方案。

Prashant解释说，当客户需要在企业级别的实际用例中使用生成式AI时，他们会从提示工程、检索、增强生成、微调或持续预训练开始选择模式。从左到右，模型质量会逐渐提高，变得更加专门化和上下文感知，但同时也会变得更加复杂、耗时和昂贵。

对于他们复杂的业务问题，标准普尔全球公司选择了微调基础模型作为设计模式。然后，Prashant介绍了来自标准普尔全球公司的Shinshan和Saeed，分享了他们的经历。

Shinshan提供了业务用例的背景，解释说数据是标准普尔全球公司一切工作的基础。虽然他们的信用评级业务已有150多年的历史，专注于对被评级实体进行财务分析，但他们也有一个专注于私募市场的市场情报部门。

为私营公司提供信用评级具有挑战性，因为许多公司没有义务提交财务报表。标准普尔全球公司需要寻找其他信号来评估中小企业的信用状况，因为他们的客户可能有数十万家此类供应商和交易对手。

在缺乏财务报告的情况下，标准普尔全球公司依赖诸如管理层变动、付款记录、留置权和法律文件等信号来定量评估中小企业的信用风险。时间至关重要，因为客户要求实时评估，而标准普尔全球公司的目标是比竞争对手更快地提供更多信息。

挑战在于跟踪6000万至7000万家无财务报表公司的文本足迹。传统的网络监控方法将是劳动密集型的，因此标准普尔全球公司探索了第一方信息(公司网站)、第二方信息(新闻报道)和第三方信息(社交媒体)来收集相关数据。

标准普尔全球公司将这些任务视为微服务，如行业分类、事件跟踪和定量建模，以建立行业风险评分并为单个公司或客户投资组合生成实时风险报告。

接下来，Saeed解释了他们解决方案的技术细节。他的团队专注于利用自然语言处理(NLP)从文档和网络中收集数据，用于Shinshan介绍的产品。

他们需要解决的关键问题包括:映射公司的域图(所有相关URL)、在该图中识别相关页面、从这些页面中提取带有风险信号的部分，以及每周监控这些部分——所有这些都是在1亿家私营公司的规模上进行的。

为了创建域图，他们从给定的公司URL开始，最多遍历三个级别，将每个URL表示为节点，超链接表示为有向图中的边。然后，他们使用图中心性方法来确定优先处理具有最多连接的页面。

接下来，他们使用微调的大型语言模型(LLM)对重要的子页面进行分类，因为传统的基于规则的方法通常会产生较高的误报率。

在每个相关的HTML页面中，他们将DOM转换为树结构(异构图)，并基于其周围元素(如标题、表格、名称)为每个节点生成特征空间(嵌入)。然后，他们训练机器学习模型来对这些元路径进行分类，避免基于XPath的方法的脆弱性。

他们的管道每周在Amazon Managed Workflows for Apache Airflow上运行，任务在Redis队列中注册，并由运行在Amazon Elastic Kubernetes Service (EKS) Pod中的工作节点执行。在高峰时期，他们大约运行400个并发Pod，将重型(包含JavaScript)和轻型抓取器分开以提高效率。

对于存储和监控，由于该过程的规模巨大，他们利用Amazon OpenSearch进行日志记录。

从模糊的公司描述中识别业务活动和相关风险信号是一项复杂的分类和提取任务，在这方面，LLM比传统的NLP方法表现更出色。LLM在语言理解方面非常强大，并且在针对特定领域(如信用风险)进行微调后，可以跨多个分类和提取任务进行多任务处理，从而简化了模型生命周期管理。

然而，微调LLM的成本高昂、困难重重，并且在生产环境中运行也具有挑战性。标准普尔全球公司通过使用参数高效的微调方法(如LoRA(低秩适应))来解决这一问题，该方法只更新模型参数的一小部分(LLaMa 7B为0.1%)，通过注入适配器模块实现。这大大减少了计算要求和模型大小，同时保留了预训练模型的知识。

他们进一步将模型从16位量化到4位精度，将LLaMa模型的大小从14GB减小到3.5GB，而性能损失不大。

为了在这个新领域构建高质量的训练集，同时注释数量有限，标准普尔全球公司采用了“瀑布”方法。简单的案例通过基于规则的模式匹配引擎处理，而更难的案例则通过自评分管道处理，其中大型语言模型提供初始分类，自评分器评估置信度水平。置信度较低的输出将被送交人工注释。

这种主动方法将大型预训练模型(高达700亿参数)的知识提炼到更小的、针对特定领域微调的模型中。使用专注的问题而不是复杂的多任务提示来提示LLM也提高了性能。

微调工作在Amazon SageMaker上进行，通过精心设计的提示工程来控制输出标记长度(用于分类任务)、限制幻觉和保留预训练模型的初始学习。超参数调优优化了训练效率和模型性能，并与内部传统NLP基准进行了比较。

对于推理，微调后的模型使用LLaMa-CPP库从GPU转换为CPU，并进行量化以提高效率，在与之前管道步骤相同的基于CPU的EKS集群上运行。对于他们的工作负载特征，这比GPU实例提供了更好的性价比。

关键的经验教训包括:

1. 从较小的LLM(7-8B参数)和低秩适应方法(如LoRA)开始，只更新少于1%的参数。这降低了过度拟合风险、灾难性遗忘和成本，同时在领域发展时提供了良好的上下文外表现。

2. 根据工作负载特征比较CPU与GPU的价格/性能，因为当与基于CPU的预/后处理相结合时，CPU可能更具成本效益。

3. 利用开源工具(如LLaMa-CPP)进行高效的模型转换和量化。

4. 使用提示工程来控制输出形状、限制幻觉并保留预训练知识。

5. 采用主动的“瀑布”方法和自评分，以便在新领域中有效地标注有限的注释数据。

会议最后演示了标准普尔全球公司的Risk Gauge Desktop，展示了微调后的模型如何支持全面的信用风险评估解决方案，用于了解客户投资组合、经济/国家风险、单个公司详情，并生成定制报告。

总之，标准普尔全球公司成功地在亚马逊云科技上以经济高效和可扩展的方式微调并部署了大型语言模型，扩展了他们的数据洞察力，并为私营公司提供实时信用风险评估，解决了一个长期存在的行业挑战。他们在提示工程、模型压缩、自评分数据标注和架构设计方面的创新方法使他们能够每周处理600万次推理，同时优化成本。

我们正处在 Agentic AI 爆发前夜。 2025 亚马逊云科技中国峰会提出，企业要从 " 成本优化 " 转向 " 创新驱动 " ，通过完善的数据战略和 AI 云服务，把握全球化机遇。亚马逊将投入 1000 亿美元在 AI 算力、云基础设施等领域，通过领先的技术实力和帮助“中国企业出海“和”服务中国客户创新“的丰富经验，助力企业在 AI 时代突破。

S&P Global：通过微调基础模型扩展数据洞察

导读

演讲精华