首先,让咱们来看一下>
Data Fabric 是一种新兴的数据控制设计理念,来源于美国。依据 Gartner 的定义,Data Fabric 可以成功跨异构数据源的增强、数据集成和共享。这象征着以前在构建数据仓库时须要启动少量的ETL上班,将不同业务相关数据库中的数据加载到数据仓库中,并经过各种链路启动数据同步。而后,在数据仓库中启动分层加工,最终生成各种目的,供用户启动剖析和生成报表。
Data Fabric 的理念与传统的数据仓库有所不同。在某些状况下,剖析师或者并不须要将整个数据齐全搬移到自己的上班环境中,而只有要启动繁难的数据探查。因此,Data Fabric 的概念就应运而生。繁难来说,Data Fabric 就是一种对企业外部数据启动轻量级探查的编织概念。
基于Data Fabric 的理念,咱们可以启动愈加灵敏和高效的数据剖析。自2019年起,Gartner 曾经延续三年将>
Data Fabric 的价值关键体如今降落老本和提高效率方面。它可以协助用户增加在数据开发、剖析和控制环节中的上班量,防止频繁的数据迁徙和复制。那么,Data Fabric 实践上处置了什么疑问呢?最关键的疑问是冲破数据孤岛。经过将数据接入到一致的平台中,企业可以取得对整个企业内一切数据的初级视图,了解企业外部的数据在哪里、做什么用途。此外,用户还可以启动繁难的数据探查,而无需将数据所有迁徙到数据仓库或数据湖中。这样一来,Data Fabric 为企业提供了愈加综合和灵敏的数据控制和探求方式,从而提高了数据剖析的效率和准确性。
如今硅谷盛行一个概念——Lakehouse 数据湖。数据湖和> 目前,硅谷的一些头部互联网公司都推出了基于>
滴普科技基于> 首先是咱们的 DLink 引擎,处置了在各种云基础设备上的存储和计算疑问。它有效地组织和存储数据,并提供了针对不同上班负载的计算才干。在这一层之上,有开发套件和剖析套件。开发套件相似于数据开发中的工具箱,提供了调度、编辑器和上班流编排等性能。而剖析套件关键处置目的控制疑问,愈加面向业务,协助控制各种非 SQL 方式的目的。
湖仓局部是数据仓库架构中的一个关键组成局部,关键处置数据存储和计算的疑问。在数据仓库中,数据通常以表格方式存储,湖仓控制须要思考如何存储和控制不同格局的数据表格,以及如何提供减速和控制源数据。在存算分别的状况下,湖仓控制须要提供高效的数据访问和查问性能,以便用户能够极速失掉所需的数据。
基于> 湖仓控制还提供了一些计算才干和开发套件,用于建模、数据品质、数据控制、调度和数据集成等方面。例如,用户可以经常使用开发套件来树立模型、评价数据品质、制订数据控制战略、调度数据处置义务以及成功数据集成。这些工具可以协助用户更好地控制和应用数据资源。
最上层的剖析层关键处置如何树立各种目的,并经过自己的模型言语来控制这些目的,从而构成企业的数据资产。用户可以经常使用剖析层来定义和计算各种目的,例如开售额、用户增长率、市场份额等。这些目的可以协助企业更好地了解自己的业务状况,并制订相应的决策和战略。
现代数据栈(MDS)是一个全流程架构的概念,它是可组装的而不是全体式的。每个客户在经常使用平台时,并不须要经常使用一切的套件,因此 MDS 驳回了可插拔的插件方式,依据客户的需求启动组装,成功了一种非大而全的平台。这种可组装的方式可以降落企业的老本,并简化平台架构。
MDS 的整个平台架构从数据源的数据拉取开局,包括实时和离线的数据采集和集成局部,而后将数据集成到数据湖和数据仓库中,构成湖仓一体的架构。这个架构成功了数据的整合和一致控制,使得企业能够更好地利用数据资源。
总的来说,MDS 是一个灵敏可组装的数据架构,经过插件方式提供所需的性能,笼罩从数据源到数据湖和数据仓库的整个数据流程,协助企业降落老本并简化平台架构。
在存储底座中经常使用 DLink 套件时,数据开局启动开发,并在开发界面中启动相应的开发上班。在数据开发环节中,数据控制是一个关键的环节,确保数据品质的高规范。而后,数据进入到数据的剖析与运行层,这是剖析套件所要处置的疑问。剖析套件提供了一系列工具和性能,协助用户启动数据剖析和运行开发。
最底层是控制台,这是另一款产品,其关键处置的疑问是对基础设备的计算资源和存储资源启动控制。它还提供了监控和告警性能,以及对数据源的一致控制。这个产品被称为 DCE(Data Control Engine),它的关键目的是控制和优化基础设备资源,确保系统的高效运转。
产品的**长处可以繁难概括为四个方面。首先是低老本,由于它可以齐全分别地部署在各种公共云的对象存储上,同时也支持私有云的部署,比如在 IDC 外面可以对接传统的 HDFS 等。其次是易用性,它提供了矫捷的数据开发才干,包括低代码批示和低代码开发等工具。第三是可组装性,即依据需求选用自己的链路,这是基于现代数据栈(MDS)的思维,可以依据客户需求启动定制化部署。最后是繁难扩展性,它是从 Hadoop 生态的大数据平台向互联网一体的新一代大数据平台演进,同时也支持国产化新创,为用户提供更多的选用。
概括而言,FastData 具备低老本、易用性、可组装和易扩展等内围长处,可以协助企业更好地控制和应用数据资源,提高数据剖析和运行的效率。
FastData 剖析套件关键用来处置目的,它驳回了一致 ML(Model Language)模型言语来定义、控制和加工目的。一旦目的加工好了,咱们就可以将其存储在各种不同的存储介质中,包括开源存储和咱们自己的湖仓引擎等。这个剖析套件关键关注目的层的存储和控制,而不关心目的详细存储在哪里。
为了更好地服务于客户,咱们还提供了各种各样的服务,包括对接各种 BI 工具、提供数据企业产品 API link 等。客户可以经过这些服务来查问目的数据,启动各种数据剖析和运行。此外,咱们还提供了 AI link 服务,客户可以经过数据迷信和 Jupyter 等工具来访问目的数据,成功数据运行的开发和部署。
FastData 剖析套件一致的目的控制和加工方案,以及丰盛的服务和工具,可以协助客户更好地利用和运行数据资源,提高数据剖析和运行的效率。
剖析套件的性能架构关键包括目的言语的树立和目的减速两个方面。首先,目的言语的树立是指如何定义和控制性能目的。用户可以经常使用一致 ML 模型言语来定义复杂的目的逻辑,包括目的的计算、聚合和过滤等操作。这样可以协助用户更好地理解和形容业务需求。
其次,目的减速是十分关键的一点。由于用户树立的目的逻辑或者十分复杂,咱们须要在用户查问时能够极速地找到目的数据。为了成功目的的极速查问,咱们驳回了一系列优化技术,包括数据索引、缓存和并行计算等。经过这些减速技术,可以大大提高目的查问的效率,经常使用户能够极速失掉所需的数据。
剖析套件的价值在于提供了无门槛的数据洞察才干,即使疑问 SQL 的人也能够树立目的。用户只有要启动繁难的性能,比如性能一些原子目的和润色词,而后指定一些加工公式,就能够计算出所需的目的。经过仪表盘等工具,用户可以洞察到暗藏在数据面前的业务见地。
另外,一致目的服务是经过模型言语提供各种对外的 API,如 JDBC 和 SDK 等。这样可以繁难用户经过外部工具访问和查问目的数据。此外,CubeLess 是用于构建数据立方体的一种技术。它经过底层的估量算才干缓和存技术,事前计算好目的并减速查问。同时,剖析套件还可以轻松对接各种盛行的BI工具,提供减速查问的才干。
上方重点引见开发控制套件。开发控制套件是一个相对传统的数据开发和控制工具,依照惯例的数据链路启动数据开发。首先,启动数据规范化和树立模型,而后启动数据开发,其中触及到数据的血统相关和调度。这个环节触及到元数据,而后颁布到消费环境中启动运转。在这个环节中,还须要启动品质校验、数据集成和数据安保(如加密和脱敏)等处置,最终对外提供服务。整个流程比拟规范化。
最底层的存和算引擎是湖仓引擎,关键处置高效存储和计算的疑问。在存储方面,咱们驳回了表格局,关键经常使用了 Apache 的 Iceberg,并启动了少量的二次开发。在计算方面,咱们为不同的上班负载提供了三种内置的算力引擎。关于离线上班负载,提供了 Spark;关于实时上班负载,提供了Flink;而关于机器查问和剖析上班负载,则提供了内置的 Trino 组件。这样,能够满足不同场景下的高效存储和计算需求。
湖仓引擎的价值关键在于:
首先,能够提供多上班负载,并能够以云化方式提供数据服务,也就是它的上班负载。不同的上班负载有不同的内置组件来撑持。
另外,它的架构是存算分别的,它的存储底座可以对接各种对象存储,可以提供 PB 乃至 EB 级的海量数据存储。
散布式数据湖架构,企业可以树立多个数据湖,包括总公司和各个分公司的数据湖。但是,如何成功不同数据湖之间的有效数据共享是一个须要处置的疑问。
逻辑入湖与物理入湖是数据控制和剖析畛域的两种不同方法。物理入湖是将传统的数据齐全搬迁到数据湖中,并在数据湖上构建数据仓库或启动数据剖析。在物理入湖的环节中,通常会驳回批流一体的方式,将离线和实时数据处置兼并为一条数据流,以提高数据处置效率。此外,还须要对整个数据集成环节启动控制,包括处置数据结构变卦的疑问,以确保数据湖中的数据与源数据坚持同步。
逻辑入湖是一种基于 Fabric 架构的通常方法。它的关键技术要求是一致元数据,包括曾经入湖的数据和未入湖的数据。逻辑入湖并不触及将数据搬迁到数据湖中,而是经过控制元数据的方式,将元数据捞取上来并启动控制。数据依然保管在原始位置。在数据仓库层启动数据加工和剖析时,可以间接经常使用SQL启动操作,无需关心数据的详细存储位置。
散布式数据湖是一个多湖的概念,它可以处置大型企业中总公司和分公司之间数据替换的疑问。以中国移动为例,总公司和各个省分公司都有自己的数据仓库和数据湖。为了成功数据替换,可以驳回散布式多湖联邦查问的才干来处置。详细做法是,分公司可以将自己的数据湖注册到总公司,并提供一个注册账号来控制权限。这个注册账号可以控制总公司对分公司数据的访问权限,可以随时扩展或增加权限,甚至收回权限。这样就成功了有限度的数据分享,不须要将一切权限放开给总公司。例如,可以只放开读权限而不放开写权限。散布式数据湖的架构关键处置这种状况下的数据替换疑问。
散布式数据湖中的**思念是 Fabric,它能够成功一致的数据视图,而这是经过一致的元数据服务来成功的。这个元数据服务不只可以控制数据湖内的数据,还可以控制企业内其余各种数据存储的元数据。此外,权限管控也十分关键,由于假设源数据控制没有权限控制,数据的安保性就无法失掉保证。
在 FastData 团队中担任构建近实时的数仓,是咱们的一个关键上班。咱们驳回了 Apache 的 Iceberg 来做底层的表格局存储。从数据源到 ODS 层,咱们经常使用 Flink CDC 技术将数据源拉出去,之后从 ODS 层到上方的 DWD 层或 DWS 层,须要让数据极速地流动起来。为了成功这个目的,咱们须要Iceberg这一层支持 CDC 技术,也就是说经过经常使用Flink这种流式读取 Iceberg 的 Connector,可以极速地感知抢先 Iceberg 表的数据变动和schema变动,并将这些变动及时地同步给下一层。这样,数据和 DML 就可以不须要人工操作便智能地流动起来。除了 append 数据之外,还有 delete 数据和 update 数据,这些数据都须要经过整个链路不停地往下游流动,以便发生的目的能够跟着业务数据的变动而变动。咱们曾经做到了这一点,但是 Iceberg 的 changlog 发生是依赖于抢先表的 commit 操作。commit 的频率越高,时效性越好,但是会发生更多的横七竖八的文件,对后盾的智能化运维提出了较高的要求。commit 的期间越长,拉的期间越长,对文件是更好,但是时效性就差了一些。因此,咱们须要依据业务的实践时效要求做出正当的性能。
智能化表运维方面,由于数据湖与传统的 Hive 表格有所不同,数据湖支持行级别和列级别的降级,因此会发生各种各样的删除文件和小文件。同时,数据湖也支持实时写入,这会造成更多的小文件和删除文件。假设不迭时整顿这些文件,间接查问的效果将十分差。为了处置这个疑问,咱们经常使用了异步兼并和读时兼并 MOR 等技术来提高性能。在后盾,咱们必定确保这些上班失掉良好的处置。
在 FastData 外部,咱们努力于让用户齐全无需关心这些上班。就像经常使用传统的 Hive 表格一样,用户只有要专一于他们的数据业务,写入和读取数据即可。后续的保养上班由系统智能成功,用户无需启动操作。
物化视图是一种经常出现的空间换期间的战略,通常在 MPP 中也会经常使用,例如 StarRocks 也经常使用了这种战略。物化视图的一个特点是关于那些查问相对固定的query,查问减速的效果比拟好,由于它的命中率较高。
在 Fastdata 外部,咱们基于 Trino 成功了物化视图。但是,社区版的物化视图基本上无法经常使用。首先,它的刷新须要手动刷新数据,全量刷新是无法行的。例如,假设我的基表有上亿条数据,假设我做了一个聚合查问生成一个物化视图,假设要全量刷新,代价太大了。因此,咱们在这个基础上做了一些优化上班。例如,咱们如今可以智能刷新,第二刷新可以做增量刷新。增量刷新象征着,当基表出现任何变卦时,例如参与了一行或删除了某一行数据,这种变卦很快就能体如今物化视图中。在后盾,咱们经过经常使用 Iceberg 的CDC 技术来实事实时监控基表的变动。一旦感知到变动,就会触发增量计算。咱们经常使用Flink 来启动增量计算,而后将结果同步到物化视图中。
三、FastData实时智能湖仓平台通常案例
FastData 曾经在多个行业中积攒了一些客户案例。尤其在动力和商品流通畛域,特意是新批发方面,失掉了普遍运行,并取得了必定的成绩。
在动力畛域,咱们的平台关键处置两个**疑问。首先,应用 Hadoop 技术来处置各个油田的数据。由于油田散布普遍,每个油田都有自己的数据控制系统,因此咱们的平台能够将这些数据整合起来,并提供更极速的数据采集速度,从T+1天级别优化到分钟级别。
其次,咱们经过树立散布式数据湖(Lakehouse)来处置数据控制的疑问。以前,各个油田的数据是相互独立的,没有一致的控制方式。如今咱们的平台准许各个油田树立自己的数据湖,并将数据注册到总部。这样,总部就可以随时启动数据剖析,了解各个油田今日的消费运营状况。同时,数据依然保管在各个油田的本地存储中,成功了数据的集中控制和扩散存储,处置了这两个**痛点疑问。
FastData 平台不只提供结构化数据仓库和数据湖仓库的才干,还能处置半结构化和非结构化数据。关于批发客户来说,这是一个关键的性能。在过去的 Hadoop 时代,处置结构化和非结构化数据通常须要经常使用齐全独立的技术栈敌对台。但经过 FastData 平台,可以成功半结构化数据和非结构化数据的一致存储和控制,处置了企业外部存在的各种非结构化数据的疑问。这样,客户可以在一个一致的平台上处置和控制不同类型的数据,提高数据处置的效率和分歧性。
这个案例是一家新动力汽车企业的数字化转型。他们关键面临以下疑问:营销不精准、主动式服务、不足用户价值的运营,以及数据控制凌乱,难以发现数据面前的价值。
咱们的产品在这个案例中的重点是剖析套件,经过它来协助企业构建数据资产并发现业务价值。FastData 剖析套件能够协助企业启动数据剖析,优化营销精准度,改善服务品质,并发现潜在的业务价值。经过这个案例,咱们能够看到企业在数字化转型中取得了清楚的停顿。
四、FastData实时智能湖仓平台未来布局
FastData 平台的未来布局包括以下几个方向:
首先,咱们将继续努力于构建高性能、低老本、易经常使用的大数据平台。
其次,咱们将优化数据湖外部的数据服务性能。目前咱们的数据服务在高并发状况下仍有待提高。
第三,咱们方案一致 Gateway 服务,以提供分歧的用户体验。不同的上班负载和引擎或者有不同的经常使用方式,咱们宿愿能够一致这些上班方式,经常使用户能够像经常使用 MySQL 一样繁难地经常使用咱们的平台。
第四,咱们方案支持更多的云环境。目前咱们曾经适配了一些干流的云平台,但关于一些较冷门的云平台,仍须要参与适配才干。
最后,咱们将经过大模型技术来处置数据资产变现的疑问。传统的数据处置链路须要人工介入,从数据集成、开发、目的加工到决策,都须要人工操作。经过大模型技术,咱们宿愿能够降落重复休息,并成功人造言语翻译和间接生成 SQL 等性能,以优化效率。