文/张太胜 平台产品运营部
随着大数据技术的不断更新和迭代,数据管理平台和工具得到了飞速的发展,相关概念如雨后春笋一般应运而生,如从最初决策支持系统(DSS)到商业智能(BI)、数据仓库、数据湖、大数据平台、数据中台等,这些概念特别容易混淆,本文对这些名词术语及内涵进行系统的解析,便于对数据行业相关概念有全面和深刻的认识。
HZERO
01
数据行业相关概念回顾
01
商务智能BI
Business Intelligence
是一种以提供决策分析性的运营数据为目的而建立的信息系统。属于在线分析处理:On Line Analytical Processing(OLAP),将预先计算完成的汇总数据,储存于魔方数据库(Cube) 之中,针对复杂的分析查询,提供快速的响应。
在前10年,BI报表项目比较多,是数据仓库项目的前期预热项目(主要分析为主的阶段,是数据仓库的初级阶段),制作一些可视化报表展现给管理者。
02
BI的核心特点
The core features
它利用信息科技,将分散于企业内、外部各种数据加以整合并转换成知识,并依据某些特定的主题需求,进行决策分析和运算;
用户则通过报表、图表、多维度分析的方式,寻找解决业务问题所需要的方案;
这些结果将呈报给决策者,以支持策略性的决策和定义组织绩效,或者融入智能知识库自动向客户推送。
03
数据仓库
Data Warehouse
一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策和信息的全局共享。
其主要功能是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,进行系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的从大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。
主题:是指用户使用数据仓库进行决策时所关心的重点方面,如:收入、客户、销售渠道等;所谓面向主题,是指数据仓库内的信息是按主题进行组织的,而不是像业务支撑系统那样是按照业务功能进行组织的。
集成:是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。
随时间变化:是指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
04
数据湖
Data Lake
作为存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖是以其自然格式存储的数据的系统或存储库,通常是对象blob或文件。
数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频,视频)。
目前,Hadoop是最常用的部署数据湖的技术,数据湖是一个概念,而Hadoop是用于实现这个概念的技术。
05
数据平台
Data Platform
数据平台是在大数据基础上出现的融合了结构化和非结构化数据的数据基础平台,为业务提供服务的方式主要是直接提供数据集。
数据平台的出现是为了解决数据仓库不能处理非结构化数据和报表开发周期长的问题,所以先撇开业务需求、把企业所有的数据都抽取出来放到一起,成为一个大的数据集,其中有结构化数据、非结构化数据等。当业务方有需求的时候,再把他们需要的若干个小数据集单独提取出来,以数据集的形式提供给数据应用。
大数据时代,数据平台一般被称之为大数据平台。狭义上的大数据平台和传统数据平台的功能一致,只是技术架构和数据容量方面的不同,但广义的大数据平台通常被赋予更多的使命,它不仅存储多样化的数据类型,还具有报表分析等数据仓库的功能,以及其他数据分析挖掘方面的高级功能。
06
数据中台
Data center
通过对企业内外部多源异构的数据采集、治理、建模、分析和应用,使数据对内优化管理提高业务价值,对外进行数据合作让业务价值得到释放,使之成为企业数据资产管理中枢。
数据中台的使命和愿景是让数据成为如水和电一般的资源,随需获取,敏捷自助,与业务更多连接,使用更低成本,通过更高效率的方式让数据极大发挥价值,推动业务创新与变革。
一切业务数据化,一切数据服务化,一切数据业务化。
One Data;One ID; One Service。
建立在数据仓库和数据平台之上,是加速企业从数据到业务价值的过程的中间层。
02
术语之间的区别与联系
介绍完数据相关术语的概念之后,进一步探索这些术语之间的区别与联系,详情如下:
数据集市VS数据仓库
数据仓库VS数据湖
1.在储存方面上,数据湖中所有数据都保持原始形式进行存储,并且仅在分析时再进行转换。数据仓库就是数据通常从事务系统中提取。
2.数据湖的非常适合深入分析的非结构化数据,数据科学家用具有预测建模和统计分析等功能的高级分析工具进行数据挖掘。而数据仓库就是数据仓库非常适用于月度报告等操作用途,因为它具有高度结构化。
3.在架构中数据湖通常在存储数据之后定义架构,使用较少的初始工作并提供更大的灵活性。在数据仓库中存储数据之前必须先定义架构。
数据仓库VS数据平台
数据仓库具有历史性,其中存储的数据大多是结构化数据,数据平台的出现解决了数据仓库不能处理非结构化数据和报表开发周期长的问题。
数仓&数据平台VS数据中台
数据仓库具有历史性,其中存储的数据大多是结构化数据,数据平台的出现解决了数据仓库不能处理非结构化数据和报表开发周期长的问题。
Tips:当大数据平台满足以业务为驱动的建设模式和数据服务化的条件,大数据平台一般也可看做是数据中台
03
新兴的数据概念
当我们正在感叹从数据仓库到数据湖、从数据平台到数据中台的演化如此迅速之时,其它新兴的数据概念也已悄然到来。例如Data mesh概念的提出,改变了数据湖或者数据仓库的集中式范式,将企业数据平台从单体式架构演进成具有微服务特性的分布式数据平台,而这种架构应该更能满足数据中台关于灵活的数据服务化的要求。
01
分布式数据平台
Data Mesh
一个分布式数据平台的核心是一组用面向域的数据产品、用自服务的方式使用数据技术设施提供的数据流水线(清洗、组合、丰富等)或合规(数据鉴权、隐私、安全等)的公共服务、并接受数据产品思维的设计和管理,以及和企业交付基础设施深度集成。
Data mesh概念的提出,改变了数据湖或者数据仓库的集中式范式,将企业数据平台从单体式架构演进成具有微服务特性的分布式数据平台,也是企业构建数据中台的较好实践。
企业选择分布式数据平台动因分析?
1.目前企业广泛使用单体式架构,数据的沉淀、处理、和使用基本存在于错综复杂的源系统(Source Systems)中,其代码体系是庞大的;
2.数据创新的本质就是更细粒度业务的发现、实现、和规模化,数据使用场景一定发生频繁的细粒度扩展;
3.数据场景的使用有极高的独立性,业务需要数据平台根据需求提供稳定且独特的数据服务;
4.数据平台面向的往往就是一个庞大的技术债,数据平台必须和技术债管理集中在一起考虑;
5.在云平台和开源数据工具蓬勃演进的今天,企业需要更快地引进新的数据工具和基础设施,其技术栈需要更快的演进。
02
澳门威士尼斯人HDSP产品
HDSP
澳门威士尼斯人HDSP产品正是应运这一新兴趋势,澳门威士尼斯人在HZERO框架上应用开源Hadoop生态产品结合行业经验打造微服务分布式的大数据服务平台HDSP,为企业数智化变革创新持续赋能
澳门威士尼斯人HDSP
03
总结
最后,再次总结数据仓库,数据平台和数据中台几个核心概念的区别与联系
01
在概念层面上
concept
数据平台和数据中台的技术能力都是基于数据仓库发展而来,在数据建设理论上一脉相承,他们处理的对象都是海量数据,服务目的、商业价值也统一类似。
其实平台和中台,两者在能力上都有对外都提供Open API服务。一方面,中台是业务应用,不具体代表着某种技术,它不是最终用户能直接使用的,必须结合企业的各个数据业务场景;
另一方面,平台是不带有业务特征性质的,主要汇集其他人的能力,整合成平台的能力,相对来说是静态的,而中台是动态变化的本身,需要通过数据驱动的方式来滋养业务,不断训练调整业务模型和业务算法提供的能力,提供给其他系统和平台集成的能力。
02
在数据层面上
DATA
数据仓库的数据来源主要来源于RDBMS,其中存储的数据格式以结构化数据为主,这些数据并非企业全量数据,而是根据企业业务需求做针对性整合、抽取。
数据平台和数据中台的数据来源的期望都是全域级的数据,主要有结构化数据、半结构化数据、非结构化数据等。
03
在目标层面上
The target
数据仓库基于单机的,一旦数据量变大,会受单机容量、计算以及性能等方面的限制。主要用来做报表分析,目的性相对来说单一,只是针对相关分析报表用到基础数据,进行抽取、整合、数据清洗和分析。比如,新增一张报表,就要从底层到上层再做一次,流程上相对来说繁琐;
数据平台建立是为了解决数据仓库不能处理非结构化数据和报表开发周期长的问题以及计算和性能等问题。汇集整合打通数据,数据清洗后,当业务提出需求的时候,把业务方需要的若干个小数据集单独提取出来,以数据集的形式提供给业务方去使用;
数据中台通常会对来自多方面的基础数据进行数据清洗后,然后按照主题域的概念建立多个以事务为主的主题域;和数据平台在底层建设上都是基于分布式计算平台和存储平台,理论上可以通过无限扩充平台的计算和存储能力。目标是都是为了融合整个企业的全域级数据,打通数据之间的隔阂,消除数据标准和口径不统一的问题。
04
在应用层面上
application
建立在数据中台上的数据应用场景,不仅仅只是面向于数据报表开发分析与展示处理,更多是将数据变成服务化的方式,然后提供给业务系统消费,发挥更大的价值。
企业在规划和建设过程中,应充分结合企业的业务需求,数据资产现状,技术资源现状,成本投入和风险等因素选择刚刚好的数据产品和工具,让企业数据本身持续发挥价值。
更多内容
大家可以通过以下途径了解HZERO产品更多文档,最新动态、产品特性:
澳门威士尼斯人开放平台
澳门威士尼斯人开放论坛
https://openforum.hand-china.com/
(复制至浏览器中打开)
大家可以体验试用HZERO:
请登录开放平台,选择HZERO产品进行试用,即可体验。
请在PC端打开