数据是推动人工智能驱动型企业发展的强大动力,而用于管理和交付数据的工具和技术同样具有重要作用。
如今,随着人们对人工智能和机器学习的向往,迫切需要确保数据的可用性、及时性、准确性、相关性,这意味着确保数据通道畅通无阻。
面对如此多的利害关系,未来企业在数据方面将面临哪些挑战?如何应对这些挑战呢?

挑战1:数据复杂性 DATA COMPLEXITY
数据复杂性正在增大,是由于数据量、数据种类和数据生产的速度加大所致。生成和存储的数据量呈指数级增长,主要是由于连接设备和传感器数量的增加,以及在线应用和服务的激增。
趋势:数据进入人工智能应用和系统,来源比以往任何时候都广泛,包括结构化和非结构化数据,以越来越快的速度创建和处理,加剧了数据的复杂性。SAS高级产品营销经理Kunal Shah说,组织越来越难以管理、存储、分析和保护其数据;数据管理解决方案可能既复杂又昂贵;发展数据文化需要时间;采用新技术可能具有挑战性。
解决方案:公司需要投资于大数据管理解决方案,有助于打破数据孤岛,确保用户可以访问、集成、清理和转换数据,无论数据位于何处。
此外,重要的是通过教育员工数据的重要性并培训如何负责任地使用数据,发展一种优先考虑数据质量、安全性和治理的数据文化。采用人工智能和机器学习等新技术将有助于更有效地管理和分析复杂的数据集。
挑战2:非结构化数据 UNSTRUCTURED DATA
非结构化数据的爆炸式增长已成为一股不可忽视的力量。CTERA公司CTO Aron Brand表示,非结构化数据的价值正在迅速增长,尤其是在能够理解各种非结构化文档的生成式AI领域。这种指数级增长不仅与数量有关,还与将这些数据转化为可操作的情报有关。
在以数据为中心的世界中,成功的企业不一定是充斥着数据的企业,而是能够巧妙地组织、管理和利用数据的企业。
趋势:随着技术的不断发展,企业越来越依赖数据驱动的决策,非结构化数据的数量也在同步增长。
随着人工智能渗透到业务的方方面面,从日常运营到关键决策,其对数据的需求也在增长,尤其是对于文本、图像和视频等非结构化数据。最近,生成式人工智能解决方案才能够有效地处理这些数据,凸显了采用以数据为中心的思维方式的紧迫性。
然而,人工智能的巨大潜力也揭示了传统存储技术的缺点,要求平台能够善于管理在不同地点生成和处理的大量非结构化数据。
挑战3:边缘基础设施 INFRASTRUCTURE FOR THE EDGE
注意边缘!那里正在产生大量数据和处理需求。当前边缘计算呈指数级增长,对处理、存储和分析边缘捕获的数据的需求增加。企业应该考虑从“云优先”战略过渡到“边缘优先”战略,在创建数据的地方处理和分析数据的需求将改善客户体验,以及效率和企业利润。
而为更集中的云创建的技术并不总是适用于解决边缘数据问题。
趋势:所有拥有小型/边缘位置的企业面临的挑战通常都是一样的,即如何处理和存储在这里创建的所有数据?如何保护它?如何在所有这些站点使用这些数据?
对于许多应用环境来说,将所有数据从边缘移动到云的传统方法不再实用,因为云计算可能非常昂贵、不可靠,并且由于从云向边缘设备发送、接收数据的延迟,可能无法满足应用程序的性能需求。
虽然如今低成本、小尺寸的超融合系统能够处理和存储数据,但保护数据并使其易于用于业务改进的技术尚未出现。因此,边缘计算面临的数据处理面临巨大的创新和改进机会。
挑战4:为AI构建可行的基础设施 BUILDING A VIABLE INFRASTRUCTURE FOR AI
管理和交付能够满足AI需求的数据管道和基础设施需要比前几代更复杂的数据基础。然而,Appian工程高级副总裁Adam Glaser表示,所需的大部分数据“分散在各种数据仓库和数据湖中,缺乏实施AI和真正释放其潜力所需的集中化。这是因为人工智能模型要求很高,需要大量的管理资源、频繁的维护和定制的工具。
在这些已经要求苛刻的、互不关联的基础之上分层人工智能功能将导致更多问题,因为大多数组织缺乏专业知识来训练或微调其数据的训练模型。这种痛苦的根源最终来自数据孤岛的不可访问、脱节等性质。
趋势:无法向人工智能模型提供数据,如果不正确处理或解决,只会随着时间的推移而继续恶化。如今,企业产生的数据量呈指数级增长,而那些不利用这些数据并使其为业务服务的企业将被抛弃。生成式人工智能的出现为企业转型工作注入了新的活力,但巩固数据基础的风险甚至更高。
解决方案:Glaser建议,Data Fabric为构建AI模型的可行基础提供了最佳方法。借助Data Fabric,企业可以在虚拟层中处理数据,这样就不必在数据库发生变化时迁移数据或重构代码,不仅提供了对数据的轻松访问,而且还提供了数据所在位置和访问方式的统一视图,从而使AI能够更好地预测,而无需更改存储位置。
与任何企业范围的IT挑战一样,技术只是解决方案的一部分。如何在组织内实施技术并随后进行管理同样重要,不仅需要领导团队的支持,还需要整个企业的各种利益相关者的支持,不可能一蹴而就。
挑战5:扩展AI计划SCALING AI INITIATIVES
除了为AI建立坚实的数据基础外,使AI应用和系统能够从试点项目扩展到企业需求也至关重要。挑战源于组织忽视的各种来源,如数据完整性、数据隐私、安全性、基础设施以及采用人工智能的文化方面。
扩展人工智能不仅仅是一项技术工作,还需要致力于负责任地使用人工智能,涉及解决偏见、确保透明度和在人工智能系统中建立问责制等方面。
趋势:积极培养数据驱动文化的组织能够更好地应对扩展人工智能的挑战。许多组织现在优先考虑制定包含人员、流程、技术和数据组件的战略计划,以培养定义明确、数据驱动的文化。
解决方案:必须制定战略计划:在第三方专家的主持下举办研讨会,以评估组织当前的数据成熟度水平。请记住,迈向数据驱动型文化的旅程需要时间和精力,因此毅力和持续承诺是成功的关键。
挑战6:数据治理DATA GOVERNANCE
随着数据成为公司发展的核心,数据治理长期以来一直是实施或构建人工智能驱动的应用和系统的首要挑战和优先事项。
如果没有数据治理,你就无法获得人工智能的好处,仍然是组织掌握的最具挑战性和最复杂的策略之一。数据治理的挑战在于一致性。许多不同部门的许多不同人员可能都可以访问企业的关键数据,并且所有人都有与这些发现进行交互的首选方法。“厨房里有很多厨师,但不是每个人都在同一所烹饪学校学习。”
趋势:更有效的数据治理流程的案例正在增加,每天都有大量新的数据洞察用例在不同职能部门开发。“如果内部压力还不够,越来越多正在制定的法规,保护客户数据,又增加了一层复杂性。
解决方案:数据治理是一项协作工作,需要数据团队和数据消费者(如营销和产品团队)的积极参与。这种协作方法不仅确保了一致的数据质量和可访问性,而且还增强了非数据团队的自助访问,从而在组织内培养了一种更加数据驱动的文化。
其他方法包括集成机器学习,以帮助检测可疑活动并实时监控数据安全性,以及自动化访问控制和更改检测,将不可避免地为数据团队节省时间和资源。
挑战7:数据质量 DATA QUALITY
如果没有高质量的数据,人工智能都可能会停滞不前。虽然听起来很简单,但确保数据质量一直是一个不容易解决的挑战。每次收集、共享或分析数据时,其质量都有可能受到影响。随着2024年数据量和来源的持续增加,优先考虑数据质量将至关重要。
趋势:生成式人工智能的出现和广泛采用使数据质量变得更加重要。“随着越来越多地使用黑盒模型来做出决策,围绕数据进行更严格的审查和不确定性的大门已经打开。
例如,OpenAI用户“永远无法深入了解模型是如何训练的”,这极大地影响了组织信任用于为模型提供数据质量的能力,以及作为输出接收的数据的质量。
解决方案:市场上的工具包括用于分析、清理和对数据应用健全性检查的功能。无论他们选择哪种工具,数据质量都必须融入编排平台的流程中。由于数据在数据编排中不断移动,这些平台充当数据治理、可观察性和质量的接口,并最终确保只有好的数据才能提供给仪表板、人工智能应用和其他数据产品。为了缓解数据质量挑战,企业应该在未来一年及以后优先考虑其数据编排战略。
挑战8:遗留数据库 LEGACY DATABASES
熟悉的遗留数据库系统,现在正成为云架构阻碍因素,也将是2024年企业面临的一大挑战。Yugabyte战略和营销副总裁 Suda Srinivasan表示:“配置、扩展和运营缓慢的传统的关系数据库与现代云原生基础设施和应用之间存在根本性的不匹配。”云原生速度不匹配是企业在未来一年必须面对的最具挑战性的数据相关问题之一。
趋势:在过去十年,技术堆栈已经逐层实现云原生。但是大多数关键业务应用依赖传统的事务数据库。组织面临着巨大的压力,需要快速、经济高效地交付功能强大、准确的应用,从而增加价值。公司需要吸引和维持那些越来越难以取悦的客户,在这个环境中,高期望、24/7 可访问性、绝对数据准确性和快速创新是不可协商的。
几年前,NoSQL作为一种替代数据库出现,可提供规模和弹性。但是,它减慢了开发人员的速度,并迫使他们进行数据一致性和SQL查询权衡。
解决方案:长期以来,公司的关键应用一直受到传统SQL和NoSQL数据库的限制。虽然这些数据库在当时提供了实实在在的好处,但也迫使组织在数据一致性、弹性和可扩展性等领域做出妥协。
为了充分利用其投资,组织现在需要战略性地调整其云基础架构和应用现代化工作,重点关注数据库现代化。现代分布式数据库提供了一种数据解决方案,结合了SQL和NoSQL的优势(数据一致性、内置弹性和高度可扩展性)以及面向未来的数据层创新。
挑战9:数据安全 DATA SECURITY
数据安全始终是一个紧迫的问题,未来一年几乎不会带来任何缓解。不幸的是,勒索软件不会很快消失,所造成的影响只会变得更加强烈。
ChatGPT和类似工具的蓬勃发展为在线隐私、诈骗和虚假信息带来了新的挑战,但它们无疑也为安全软件行业开辟了新的可能性。
虽然数据安全并不是一个新风险,但勒索软件的社会经济影响值得每个行业和政府机构越来越关注。网络攻击者每天都在寻找弱点,企业必须采取行动来保护数据,并灌输一套最佳实践,以尽可能消除人为错误。
趋势:勒索软件的规模和频率将持续增大。根据Cybersecurity Ventures的数据,到2031年,勒索软件预计将给受害者造成超过2650亿美元的损失,每2秒就会对消费者或企业进行一次新的攻击。
解决方案:随着恶意软件有效载荷和勒索策略变得越来越完善,组织需要一个多管齐下的综合战略。通常依赖于在磁盘或公共云中保留备份数据的单个副本的组织应将 3-2-1-1-0 规则视为数据保护最佳实践——该规则建议在两种不同类型的介质上,至少保留三个数据副本,一个是异地的,一个是离线的。确保数据的多个副本存在于不同的位置,包括至少一个未连接的副本,是准备和补救勒索软件攻击的一种非常有效的方法。
全面的计划应考虑先发制人的措施来避免、识别和阻止攻击,还应该包括攻击后的补救措施,以控制和评估损害,然后再确定最快、最安全的恢复途径。