我的公众号一直以来都是写各种知识类的文章,或者是一些知识总结,但是知识不代表认知,认知是指说给到一个信息,基于这个认知,你可以做出对应的判断。也有人会对我的判断说不对,当然每个人都是环境的产物。
而我也时常会遇到各种信息,当我们的知识密度不够的时候,比较难以做出判断,也就是常人说的一个现象,必须在一个行业从业几年之后,面对一些信息,大脑可以做出这样或者那样的判断,当然判断也是基于当前遇到过的一些情况,进行判断。这些判断并不能对所有人有效,有效的是知识,知识通过学习变为自己的认知之后,基于当前的条件做出判断。
本篇个人观点,非喜勿喷,仅供参考。
那么我这些年遇到过的一些比较难以回答的问题:
1、数据仓库和数据湖 这两个产品适合什么企业了,我应该用仓库还是湖了?
首先从用途来说明区别:数据仓库是用来做什么的,数据仓库是用来存储结构化数据的,另外用途主要是BI分析,数据湖可以存储结构化数据,也可以存储半结构化数据,以及非结构化数据,主要用途是AI。
其次从数据体量来说明,这里说的数据体量不是说原始的数据体量,而是有用的数据体量,PB级适合数据仓库,TB级适合于数据湖,怎么这么说了,不是所有企业都愿意花很多钱用做来没有意义的数据存储,特别是用过一次就不用的数据,因为数据存储的价格其实挺贵的,数据湖存储的需要是有价值的数据,比如说是能够被反复利用的数据,或者有多种用途,用于AI训练的数据,举一个特别的极端的例子,比如说我从互联网获取一段篇文章,这是一条数据,而我使用了其中一段文字,且存储到我的数据仓库中,那么我是否需要把互联网上的整篇文章存储到数据湖中了?这里有个判断,这篇文章还有利用价值吗。还可以被重复使用10次以上吗。如果没有,有用的部分我存储到仓库中,那还有使用数据湖的需求吗。或者我在获取的时候在缓存阶段直接就剔除掉了,没有落库里面来。当然这对于说这种只有一次使用价值的数据,如果说这数据可以被重复利用,有多次价值,那么可以存储在数据湖中。所以说数据湖并不是说一定要把所有的业务数据集中存储,集中存储只是方法,目的是为了后续的的应用,没有应用,存储失去了意义,也有一些医疗行业,医疗记录存储必须要存储10年以上,这种有明确法律法规的也是使用数据湖存储的,所以数据存储一定是有意义的。
再来说明一下公有云和私有化部署两种选择,选择公有云部署的主要基于两个方面的考虑,简单省事,不用自己运维,特别是其中的基本组件出现了性能问题,还有后面的大厂做最后的后盾,能够提供性能调优。而选择私有化部署基本就是一种需求,数据安全需求,需要自己运维,没有办法存储到公有云上。
2、数据治理的目的是做什么的?
百度给了我们官方的回答,数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。
国际数据管理协会(DAMA)给出的定义:数据治理是对数据资产管理行使权力和控制的活动集合。
说的通俗易懂一点,企业内部需要使用的数据,从不能使用变为使用状态,并且形成一套自动的流程进行执行,不管是制定制度还是工具,还是清洗加工,都是为了让数据成为可以被使用的数据,使用次数是数据的价值,也就是说数据治理是治理有用的数据,并且需要定期将无用的数据清理掉。
3、数字化转型是做什么?和数据平台有什么关系?
数字化转型的目的是将传统的业务模式、流程和方式转变为数字化的,以提高企业的效率和竞争力。通过数字化转型,企业可以利用科技和数据来改善业务运营、创新产品和服务、优化客户体验,并实现更好的业务增长和盈利。 数据平台在数字化转型中起着重要的作用。数据平台是指集中管理和整合企业内部及外部数据的系统或平台,用于收集、存储、处理和分析数据。数据平台为企业提供了全面、准确和实时的数据,帮助企业了解市场趋势、客户需求、业务状况等,并基于这些数据进行决策和优化。数据平台还可以帮助企业实施数据驱动的业务模式,并支持人工智能、机器学习等高级分析和预测能力。 因此,数据平台是数字化转型的基础和关键组成部分,它可以帮助企业实现数据驱动的决策和创新,提高业务运营效率和竞争力。
这里有一个前提条件是企业已经全部实现了信息化了,对于一些传统企业,信息化还没有,直接进行数字化转型,有一点拔苗促张的感觉。我们常见的数字化转型比如说上一套系统OA\CRM\WMS\ERP等系统,这些都不是数字化转型,这些还是信息化。数字化转型的关键动作是通过数据赋能业务,给业务创造新的动力。
例如耐克的数字化转型是在深化客户体验和进行智能推荐耐克收购了领先的数据分析公司Zodiac。通过Zodiac的技术,耐克可以将客户使用耐克应用以及Fitbits等其他联网设备的数据点进行汇总,从而深入了解客户习惯并预测购买决策。例如,如果客户通常每六个月更换一次跑鞋,但距离上次购买已经过去了12个月,耐克就会知道是时候向该客户提供个性化的优惠,促使其恢复购买周期。同样,耐克收购了三维扫描公司Invertex,该公司专门利用自动化技术制造消费和医疗设备。Invertex设计了Nike Fit--一种新的扫描技术,利用计算机视觉、数据科学、机器学习和推荐算法的专有组合,为每种耐克鞋款找到 "最合适 "的顾客。
4、数据类可以作为普通创业的比较好的选题吗?
我个人认为除了小的数据工具以外不太适合作为普通人创业好的选题,好的创业选题适合做5米宽1000米深的东西,不适合做1000米宽5米深的东西。而数据本身由于其复杂型,本身比较少有小而精的产品。也许是我还没遇到或者看到,该观点仅限于个人观点。做数据类创业的基本都有一些原始积累吧。
5、数据类创业一定需要技术壁垒吗
技术壁垒是指企业所拥有的独特技术或创新能力,使其难以被竞争对手复制或超越。这种技术壁垒可以包括数据采集、处理、分析、存储和应用方面的技术。 拥有技术壁垒的优势可以帮助初创企业在激烈的市场竞争中脱颖而出,并阻止竞争对手轻易模仿或追赶。偶尔也会有人说起,数据类创业,什么样的人比较容易成功,一些LP投资人可能会说,有大厂技术背景,有业务应用场景的团队比较容易成功,诚然每个创业公司成功的路有很多条。每一条都不相同。
在数据类创业中,技术壁垒是一种常见的竞争优势,但并不是必要条件。技术壁垒可以提供更高的创新能力、更好的产品质量、更高的效率和更好的用户体验,从而获得市场份额和用户忠诚度。 然而,技术壁垒并不是必须的,尤其是在数据类创业中。还有其他因素也可以被视为竞争优势,例如市场洞察力、商业模式创新、高效的运营、与客户的紧密关系、专业领域的专长等。同时,技术壁垒也可能被竞争对手在一定时间内突破或超越。 因此,虽然技术壁垒在数据类创业中具有重要作用,但并不是一定需要的条件。企业可以通过创新、精细化运营和差异化战略等。