导读
完整、统一的可视性是快速排除故障的关键,确保当问题发生时,对您的业务和最终用户体验的影响降到最低。在本次会议中,了解全栈可观测性和集成的Splunk可观测性(包括Splunk AppDynamics)如何为您的整个技术栈(无论是自有还是非自有)提供无与伦比的覆盖。探索如何在问题影响客户之前检测并修复,并了解Splunk如何帮助提供无缝的数字体验。本演示由亚马逊云科技合作伙伴Splunk为您呈现。
演讲精华
以下是小编为您整理的本次演讲的精华。
在现代应用和系统不断演进的环境中,故障排查的复杂性已成为一个令人生畏的挑战。资深专业人士Greg Leffler在亚马逊云科技 re:Invent 2024大会上登台,阐明了这一错综复杂的问题,并介绍了Splunk创新的可观测性方法。
Leffler首先生动描绘了困扰许多组织的分散式可见性。日志、指标、跟踪、网络、应用程序、框架和云服务等,每个组件都为现代系统的复杂结构贡献了一部分,但往往存在于孤立的环境中。这种碎片化使得识别问题根源成为一项艰巨的任务,就像大海捞针一样困难。Leffler回忆起作为SRE的经历,最难的事情之一就是找出问题出在哪里,即使面对CEO转发给ops@companyname的一个带有问号的简单截图。
问题的关键在于软件的不断变化以及新功能、新能力和新代码路径的持续引入。即使是精心规划的系统也可能遇到意外问题,无论是由于执行的代码路径还是恶意攻击。Leffler强调,即使在相对简单的设置中,现代应用程序也可能有数百个微服务。此外,网络堆栈、数据库、存储、自有和非自有网络组件以及备受欢迎的DNS,都有可能成为潜在的故障点。Leffler强调,无论组件运行在内部、跨多个云提供商还是混合环境,确保对整个应用程序和基础设施堆栈的可见性至关重要。
正如Leffler所解释的,Splunk的可观测性方法植根于确保数字系统的弹性,并减少运营人员的工作量。通过利用软件识别问题、找出根本原因并采取纠正措施,Splunk旨在减轻人工操作员的负担,加快解决问题的进程。Leffler强调,如果组织能够构建一个永不改变的系统,就不必担心任何问题。然而,业务总是希望改变、引入新功能并销售新功能,这导致了不断的变化,可能会引发问题。
为了说明这一方法,Leffler带领观众体验了Splunk Observability Cloud的现场演示。该场景涉及对电子商务应用程序中“支付服务”的故障排查。Leffler首先演示了传统方法,通过用户界面、服务映射、标签聚焦和日志来识别支付服务的350.10版本由于无效的API令牌而失败,每个请求都失败。
然而,当Leffler引入AI助手时,Splunk可观测性解决方案的真正力量得以展现。通过一个简单的自然语言查询“我听说在Online Boutique环境中支付服务出现了问题。你能告诉我发生了什么吗?”,AI助手迅速分析了数据和日志,识别出根本原因——支付服务的350.10版本出现了高错误率,常见错误是403(无效请求),且仅限于该特定版本。
Leffler强调,可观测性平台需要覆盖多个维度,包括传统应用程序、云原生应用程序、内部基础设施以及跨多个云提供商。他强调需要监控网络组件、第三方服务和客户体验,因为它们都对确保无缝用户体验至关重要。Leffler举了一个例子,即使组织的监控仪表板显示没有问题,但如果第三方JavaScript框架或CDN发生故障,客户仍可能无法结账或登录。
Splunk Observability Cloud提供了一套全面的功能,每一项功能都旨在解决可观测性的特定方面。应用程序性能监控(APM)提供了对应用程序性能和行为的洞见,而基础设施监控则密切关注底层基础设施,即使在托管的Kubernetes环境中,组织仍需要知道在像黑色星期五这样的高流量期间是否可以分配新实例。
作为Splunk的核心优势,日志分析使组织能够通过分析日志数据深入了解问题根源。Leffler称之为“On Call”的事件响应功能,可确保在发生事件时通知并召集相关团队,最大限度地减少中断并加快解决时间。Leffler回忆说,他曾在许多圣诞节假期参加过战斗室电话会议,如果有合适的事件响应工具,这种情况本可以避免。
随着世界拥抱人工智能和大型语言模型(LLM),Splunk认识到在这一领域需要可观测性,因此提供了AI/LLM可观测性功能,用于监控诸如令牌使用、响应生成时间和用户评级等指标。
作为可观测性方程式中的关键组成部分,网络监控将可见性扩展到网络设备、CDN、DNS提供商和JavaScript框架,确保对用户体验有全面的视角。Leffler举了一个例子,如果托管第三方JavaScript框架的CDN发生故障,尽管监控仪表板显示没有问题,但客户将无法结账或输入信用卡信息。
Splunk独特的业务风险可观测性功能使组织能够评估服务对业务的影响,并评估这些服务的安全态势,识别潜在的漏洞及其相关风险。Leffler强调,任何连接到网络的系统最终都会变得不安全,组织需要知道是否有漏洞正在被积极利用,以及它是否会对业务产生重大影响。
AIOps和数字体验监控功能完善了这一全面的套件,前者利用人工智能来简化运营并设置智能阈值(例如,在超级碗等重大活动期间不会对高订单量发出警报),后者则提供了对浏览器和移动设备上的最终用户体验的洞见。
接下来,Leffler将重点转移到Splunk与Cisco的集成,强调了它们结合解决方案的优势。跨环境的统一可见性使组织能够更早地检测和调查影响业务的问题,从而最大限度地减少对客户和收入的影响。Leffler举了一个客户的例子,由于营销活动中使用了错误的URL,他们的大额消费者群体出现了404率激增,这使他们能够快速识别并解决问题,避免了重大收入损失。
此外,这种集成还提供了更好的数据和成本控制,这在数据驱动决策的时代至关重要。Leffler强调,Splunk Observability Cloud支持开放遥测(OTel),并计划为Cisco的APM产品AppDynamics带来OTel支持。对开放标准的承诺确保了组织能够对其数据保持控制权,避免供应商锁定,包括能够在源头过滤数据以降低成本并遵守数据驻留法规。
在整个演讲过程中,Leffler穿插了真实的例子和客户案例,以说明Splunk可观测性解决方案的实际应用。他回顾了一些组织能够快速识别和解决问题的实例,否则这些问题将导致客户极度不满和收入损失。
其中一个例子涉及一家电子商务公司,在像黑色星期五或网络星期一这样的大型销售活动期间,它经历了流量激增。尽管他们的监控仪表板没有显示任何问题,但客户反映在结账过程中遇到了困难。通过利用Splunk的可观测性功能,该公司能够找出根本原因——用于支付处理的第三方JavaScript库由于CDN中断而出现问题。有了这一信息,该公司能够快速实施解决方法,最大限度地减少了对客户体验和收入的影响。
另一个客户案例展示了Splunk业务风险可观测性功能的威力。一家金融机构一直在应对网络攻击的威胁,通过利用Splunk的解决方案,它能够识别并缓解其关键应用程序中的一个潜在漏洞。通过将安全数据与应用程序性能指标相关联,该机构能够评估该漏洞带来的风险,并优先考虑补救措施,确保了敏感客户数据的保护并保持了合规性。
Leffler还举例说明,Splunk的可观测性解决方案如何帮助组织根据客户层级或消费水平等各种维度对客户进行优先级排序和细分。他描述了一个场景,其中营销部门向大额消费者发送了一个包含错误URL的活动。通过利用Splunk的功能,该组织可以快速识别出这个特定群体出现了高404率,从而及时解决问题,最大限度地减少对最重要客户的影响。
当Leffler结束了他的演讲时,他重申了在当今复杂环境中可观测性的重要性。“可观测性不是luxury,而是一种必需品,”他说道。“在客户体验至关重要,而停机可能会带来严重后果的时代,拥有一个全面的可观测性解决方案对于确保您的数字系统的弹性和可靠性至关重要。”
Leffler在2024年亚马逊云科技 re:Invent大会上的演讲是一个响亮的号召,呼吁组织将可观测性视为一项战略重点。通过利用Splunk和Cisco解决方案的综合力量,组织可以获得对其应用程序、基础设施和客户体验的统一视图,从而实现更快的故障排除、更好的数据和成本控制,并最终在数字化领域获得竞争优势。
我们正处在 Agentic AI 爆发前夜。 2025 亚马逊云科技中国峰会提出,企业要从 " 成本优化 " 转向 " 创新驱动 " ,通过完善的数据战略和 AI 云服务,把握全球化机遇。亚马逊将投入 1000 亿美元在 AI 算力、云基础设施等领域,通过领先的技术实力和帮助“中国企业出海“和”服务中国客户创新“的丰富经验,助力企业在 AI 时代突破。