最近几年,"数据湖"正在被越来越多人提起,虽然各方对数据湖的定义并不一致,但这不障碍企业纷繁上水通常,比如亚马逊、阿里、腾讯、华为等,都在探求树立数据湖。为何泛滥企业在"数据湖是什么"上还没有达成共识的状况下,就开局着手进军数据湖畛域呢?一个或者的要素是, 数据湖将代表大数据和AI时代融合存储和计算的全新体系 ,特意是数据湖和云原生联合,这一趋向愈加显著。要想了解这一点,还要从数据湖的开展说起。
数据湖的崛起
2010年Pentaho公司的开创人兼首席技术官詹姆斯·狄克逊(James Dixon)初次提出数据湖的概念。詹姆斯·狄克逊把数据湖中的数据比作原生态的水——它是未经处置的,保管原始结构的。
数据湖中的水从源头流入湖中,各种用户都可以来湖里失掉、蒸馏提纯这些水(数据)。于是,早期业界和用户多把数据湖定义为一个集中式的贮存原始格局数据的系统,可存储恣意规模的结构化、半结构化、非结构化及二进制的数据。
随着大数据技术的融合开展,数据湖的边界不时扩大,外延不时变动,逐渐演化成为集多源异构数据一致贮存、多范式计算剖析及一致控制调用的大数据综合处置方案。
这就让数据湖与数据仓库有了很大的不同。
数据仓库降生于数据库时代,它的**理路是把数据库泛滥数据启动肯定格局转换后,定时地复制到另一个库里做列式存储,从而满足企业查问和数据剖析的需求。
在过去,很多企业的数据以ERP、CRM数据为主,数据规模往往是TB级,企业通常在本地驳回数据仓库处置方案来存储和剖析数据。但数据仓库这种形式模型范式固定,底层数据无法做到多样变动。
随着互联网的开展,数据量暴增,非结构化数据越来越多,企业业务变动越来越快,数字化转型成为IT行业的热点,数据须要更深度的价值开掘,因此须要确保数据中保管的原始信息不失落,应答未来不时变动的需求。
传统的数据仓库无法满足大数据时代企业关于实时、交互式剖析等方面的需求,而数据湖择了"前松后紧"的设计思绪, 初始化阶段丢弃严厉的形式,后置schme,从而取得更强的灵敏性,同时经过一致存储和计算优化来保障数据的分歧性和功能 ,这就让数据湖开局在大数据畛域逐渐遭到关注。
数据湖曾经不再局限于某个技术、某个软件产品,而是涵盖数据湖存储、数据湖计算、数据湖AI的多元化数据架构 ,满足企业级用户的消费控制需求。
为何数据湖与云原生是最佳组合
随着以Oracle为代表的数据库两边件越来越难以满足企业业务迅速变动带来的数据处置需求,IT业界不时地发生新的计算引擎,比如,企业开局纷繁自建开源Hadoop数据湖架构,原始数据一致寄存在HDFS系统上,引擎以Hadoop和Spark开源生态为主,存储和计算一体。
但这种架构的缺陷是须要企业自己运维和控制整套集群,老本高且集群稳固性较差。在这种状况下,云上托管Hadoop数据湖架构(即EMR开源数据湖)应运而生。底层物理主机和开源软件版本由云厂商提供和控制,数据仍一致寄存在HDFS系统上,引擎以Hadoop和Spark开源生态为主。这个架构经过云上IaaS层优化了机器层面的弹性和稳固性,使企业的全体运维老本有所降低,但企业依然须要对HDFS系统以及服务运转形态启动控制和控制,即运行层的运维上班。
由于存储和计算耦合在一同,稳固性不是最优,两种资源无法独立扩大,经常使用老本也不是最优。同时,遭到开源软件自身才干的限度,传统数据湖技术无法满足企业用户在数据规模、存储老本、查问功能以及弹性计算架构更新等方面的需求,也无法到达数据湖架构的现实指标。
而 云计算可以让数据湖施展出最大的价值与作用 。云计算领有极为灵敏、弹性和可扩大的计算存储资源,使得数据的存储、剖析和运行变得无比容易;而数据湖最大的价值在于将企业内各种格局的数据一致会聚,在一份数据之上启动多种剖析,高性价比且高效地开掘数据价值,特意是 数据湖的设计思绪与云计算自然符合 ,因此自2010年数据湖概念被提出以来,云服务商是数据湖概念走向落地的关键推手。
随着云原生时代来到,当数据湖以云原生(当提到云原生时,很多人的第一反响是Serverless、容器化这些概念,其实近些年来,云原生的概念逐渐泛化,涵盖了很多产品服务,从某种水平上讲,云原生是一种散布式系统的设计范式,这种范式具有弹性、安保、稳固等特色)的形式部署时,其弱小的功能长处可以被最大化监禁。
一方面, 数据湖上云后可以享用云自身带来的功能优化 ,如高可用(相较于自建IDC,云环境领有更多的资源冗余,一节点出现缺点可以无缝切换到其余节点,确保业务的延续性)、弹性(云计算具有灵活扩大性与可累赘性,可以处置海量业务带来的吞吐和IO功能瓶颈,满足大数据剖析所需资源的宏大规模与突发性质的需求)、矫捷(云让企业从重复、复杂的底层IT上班中监禁进去,同时其模块化、松耦合的矫捷架构无利于数据产品的极速迭代、部署、运维与翻新)。
另一方面, 数据湖在云原生的环境中可以做更多功能优化的上班 ,如丰盛的高低文带来的剖析减速,散失处置和批式处置的融合带来的实时数据价值监禁,一站式数据控制方案带来的安保和品质改善等。这就让企业得以有效应用私有云的基础设备,数据湖平台也有了更多的技术选用,比如云上纯托管的存储系统逐渐取代HDFS,成为数据湖的存储基础设备,并且引擎丰盛度也不时扩大。总之, 云特有的"池化、弹性、矫捷"等个性,让数据层与运行层的很多想象得以成功,拥抱云原生成为数据湖乃至大数据的肯定选用 。
展望云原生数据湖的未来
假设对云原生数据湖做一个概括的话, 云原生数据湖是大数据计算平台借助云计算通常开展进去的新技术产品,其允许异构数据灵敏存储、计算资源弹性伸缩,能够协助企业应答数据结构愈发复杂、数据处置时效性要求不时变高的业务环境
也就是说,云原生数据湖只是一种架构原理,其详细成功的形式多种多样,基于EMR可以做云原生数据湖,基于Flink也可以做云原生数据湖。
不过须要说明的是,虽然中国数据湖技术正在逐年开展与打破,私有云厂商及其余厂商纷繁在尝试,但目前在数据感知搜集及归类荡涤方面存在壁垒和难度,数据湖建模阅历无余。总的来说,我国数据湖市场全体开展处于初期阶段,技术路途不一致,业内产品才干参差不齐。
从运行现状来看,数据湖在国际的落地还存在许多痛点。
数据湖的数据控制才干和全链路才干仍须要进一步增强
就数据控制而言,数据控制要求在目录中蕴含数据的分类、规定,假设企业关于数据湖的掌控才干无余,会造成数据湖目录及全体架构设计不良,湖内数据未失掉充沛归档或保养,容易构成数据沼泽。因缺少高低文元数据关联,数据沼泽无法启动数据检索,以至用户无法有效剖析和应用数据。
就全链路才干而言,现阶段国际可以提供全链路云原生数据湖服务的供应商较少,大多厂商仅提供数据湖组件的允许,因此下游需求企业只能洽购多家供应商来满足自身从数据采集控制到剖析可视化的需求。
云原生数据湖的行业认知和人才造就较为单薄 。人才方面,目前大数据、AI技术栈的开展突飞猛进,企业缺乏专业人才。从企业外部来看,控制者对数据控制只知其一,不知其二,若在没有深化梳理企业业务现状及需求的状况下自觉搭建数据湖,谋求大而全的概念,或者造成数据湖的落地成果不佳。行业认知方面,虽然数据的价值属性曾经取得业界的普遍共识,然而选用张望的企业依旧占绝大少数,数据湖在认知和推行上仍面临多方面的应战。
另外,随着企业数字化转型进入深水区,数据曾经成为企业的**消费要素,而 数据湖的最大危险之一就是安保性和访问控制 。少量数据在没有任何监管的状况入湖泊,一旦某些数据蕴含其余数据没有的隐衷和法规要求,将或者出现数据暴露和遗失,带来无法估量的结果。
当然,任何一个行业在开展初期都会存在这样那样的疑问,有不完善的中央恰好象征着这个行业还有开展的空间。依据艾瑞咨询的剖析,由于国度政策利好,比如国度接连**《促成大数据开展执行纲要》《全国一体化大数据中心协同翻新体系算力枢纽实施方案》等文件推进大数据产业走向成熟,以及互联网技术高速开展的驱动、企业数字化转型减速等要素,估量中国云原生数据湖市场未来会以39.7%的复合增长率极速开展。
所以,云原生数据湖未来的开展前景值得咱们等候和关注。