大数据终极挑战:华为智能数据释放“数据湖”战略价值

2019-06-10 15:57:00 来源:云科技时代

自2010年国际上首次提出“数据湖”概念以来,数据湖就被视为大数据的终极挑战。所谓数据湖,即把所有的数据以原始格式存储在一个统一的地方,以供后续使用。数据湖的出现,是为了应对城市和企业无法及时处理各种海量数据而先行将数据存储起来,后续使用的时候随需取用。“数据湖”被视为打破城市和企业的数据孤岛的重要基础设施,而且由于“数据湖”中存储了全量全域数据而更能为人工智能所用,从而创造更大的价值,例如用人工智能对一个城市或企业的全量数据进行分析,从而得出超越现有经验的全新洞察。

500743248_wx

近年来,各地都在兴建“数据湖”,往往一个数据湖项目就涉及上百亩产业园以及数十亿投资。因此,“数据湖”也被视为智慧城市和智慧企业发展的重大投资。简单理解,数据湖就是要给城市和企业建立一个数据中台,建立一个打通城市和企业的智慧基础设施。然而,Gartner曾预测,到2018年将有90%的数据湖将毫无用处,因为这些原始数据,缺乏有效的技术手段去使用它们。换句话说,只有“数据+智能”的智能数据解决方案,才能唤醒数据湖的真正价值。

2019年6月5日,华为在北京发布智能数据解决方案FusionData,支持智能的数据全生命周期管理,让数据存得下、流得动、算得快、用得好,把数据资源转变为数据资产。华为Cloud & AI产品与服务总裁侯金龙表示:“不久的将来,可实现一家企业一个数据湖,一座城市一个数据湖,满足居民的生产与生活、企业的运营和发展、城市政府的管理和服务等各项需求,加速全社会的智能化进程。”

数字化转型也要不断升级

众所周知,世界上90%的数据是在过去两年内产生的,并且以每两年翻倍的数据往上递增,这些数据有结构化、非结构化和半结构化数据。从现在到未来五年,将有500亿台互联的智能机器,这些互联智能机器和设备用来分析、收集和采集数据。如何获得数据、如何有效使用数据并且把数据用以指导业务,这是新的课题。

国家战略性新兴产业专家委员会秘书长杜平在2019数博会的专业论坛上发言认为,数字经济是数字技术与资本、人才、市场相融合的一种经济形态,当前整个社会经济发展向网络化、数字化、智能化转型,在转型过程中由于人们的社会经济活动而源源不断产生新的数据,这是数字社会与之前工业社会和信息社会中前期最大的不同之处。

对于当前正在进行的数字化转型,杜平强调转型必须不断迭代升级,同时要取得投资回报,特别是长期要有投资回报,否则不可持续。为此,要同时强调成本和产出:成本既包括资金,也包括时间、效率、营商环境;而产出不仅要有资金回报,还要带来体验感,也就是数字社的便利性、安全感、获得感。换句话说,数字经济时代是大家共享发展成果,这与之前的社经经济模式不同,因此要统筹考虑成本和产出问题。

然而,当前的大部分应用仍为旧应用或传统应用。政府和企业拥有大量的数据管理员,他们当中的大多数在管理着传统数据库,日常管理包括打补丁和升级等,都属于重复性人工劳动。而政府和企业希望至少能拿出50%的人力进行创新和革新,希望这些人员用更多时间在数据建模、数据生命周期管理,以及前置性措施预测数据漏洞及安全,以保障和提升企业在市场上的声誉。

因此,不论对于政府还是企业来说,“数据湖”能够统一容纳和管理传统数据技术以及新兴数据技术,把所有的数据管理员集中起来重新分配工作特别是进行创新性工作,而不是像之前那样不同的数据库系统都要配备高级数据管理员从事日常管理工作。更重要的是,“数据湖”作为一个企业和一个城市的统一数据基础设施,可以在统一软件架构的管理下,不断升级旧技术的同时容纳新技术,最终实现可持续发展的基础设施。从这个角度来说,“数据湖”是大数据的终极基础设施。

持续释放数据的长期价值

华为全球产业展望(GIV)报告显示,全球数据量将从2018年32.5ZB快速增长到2025年的180ZB。但企业生产活动产生的数据中只有不到2%被保存,而其中得到分析利用的不足10%,数据价值没有得到充分释放,并且企业普遍存在烟囱式业务系统,导致数据管理、应用效率低。对此,华为IT产品线副总裁、智能数据与存储领域总裁周跃峰表示,“各行各业在实现数据价值时面临数据接入难、分析难、消费难等挑战,亟待更智能的数据解决方案。”

例如,北京把智慧城市建设作为推动政府决策科学化、城市管理精细化、公共服务便利化的重要手段,大力实施北京大数据行动计划,形成“四梁八柱深地基”的大数据平台体系总体架构,包括截止2018年完成了40个市级部门714类政务数据汇聚工作,涉及数据9.4亿条,这是今年初北京2019年经济和信息化工作会上透露的。而在北京大数据平台体系总体架构中,城市大数据湖就是建立在北京政务云和网络基础设施之上的关键“地基”。

作为企业代表,招商银行总行数据中心应用与数据库管理室经理田永江介绍,目前招商银行零售业务两大APP的总用户数超过1.4亿、月活8000万+、承接客户流量占比92%。随着两大APP全年365天每天都可能有新业务上线,用户浪涌特征非常明显,即事先难以估计客群访问量,对业务资源快速扩展提出非常高的要求,大量业务数据也带来了大数据决策需求。在关键的数据库技术方面,由于现有的开源数据库内核还达不到Oracle的性能和功能,并且会导致集群规模过大、性价比低、维护成本高,为此招商银行与华为进行分布式数据库联合创新,这就是前不久发布的华为GaussDB数据库OLTP版本,由招商银行负责需求和解决方案设计,华为OLTP数据库团队负责技术实现。

GaussDB OLTP数据库在产品架构上采取了三层架构设计,顶层是分布式扩展层,中间层是企业级内核层,能够承载企业级业务的高性能以及通用数据库能力,最底层是分布式存储层,采用云存储技术,构筑软硬件垂直整合的高性能、高可用、Cloud Native云数据库能力。GaussDB OLTP版本利用华为在数据库领域的经验进行自主创新,基于新型硬件能力进行基础设施整合,实现云上部署和三高一低的总体目标(高可用、高安全、高性能、低成本)。

招商银行在数字技术领域的尝试与互联网金融企业的差异性在于,招商银行是在非常严格的监管以及为客户负责的前提下进行规划实施,是在考虑了可用性、安全性和客户体验的前提下,实现的高可用、高扩展和高弹性。田永江强调,GaussDB在一套系统里统一解决了高可用和容灾的所有问题,而且具有自动路由分布能力,运维复杂度大幅降低。而此前,招商银行已经全面启动了基于华为FusionInsight HD的大数据云化服务化建设,实现了大数据的异地存储和容灾;随着各类业务快速发展,行内群集数量快速增长,在精准营销、客户推荐、风控管理经营决策数据分析等各个领域,发挥了大数据“发动机”的作用。

本次华为发布的FusionData智能数据解决方案,就是过去多年服务政企客户需求和联合创新以及自研技术创新的集大成的系统。FusionData智能数据解决方案支持智能的数据全生命周期管理,从三个层面重新定义数据基础设施:

数据连接层面,智能数据连接部件ROMA支持多数据源接入、消息和API的统一管理、智能通道选择等技术实现智能全连接并加速数据流动,特别是支持1100多种应用和异构数据源接入,通过开放式数据接入框架可灵活接入第三方数据源;在数据处理层面,包含分布式存储FusionStorage、分布式数据库GaussDB和大数据平台FusionInsight等,通过多类型数据融合存储、融合分析引擎等技术实现从单一处理到智能融合处理,特别是通过存储与计算分离技术打破系统烟囱式建设,通过智能分布式存储的多协议融合技术实现一份数据同时支持数据库、大数据、AI等多种业务的分析需求;在数据使能层面,智能数据使能部件DAYU通过智能元数据感知和OneQuery Turbo技术构建数据处理与业务创新的桥梁,特别是通过AI技术自动化智能化生成全局统一的数据视图,实现多数据源、多类型数据的统一访问等。

华为EBG中国区总裁蔡英华表示“站在智能时代的入口,在坚持‘被集成’的基础上,华为企业业务通过‘无处不在的联接+数字平台+无所不及的智能’,致力于打造数字世界的底座。”而这样一个数字世界的底座,向上支持应用快速开发、灵活部署,使能各行业业务敏捷创新;向下通过无处不在的联接,做到云管端协同优化,真正实现物理世界的数字化。

尽管FusionData为未来的“数据湖”世纪打下了技术底座基础,但“罗马不是一天建成的”,走向“数据湖”之上的数字经济与数字社会也需要经历一步一步的转型过程。而FusionData则是很好的新旧技术结合,截至目前,华为智能数据解决方案FusionData已经应用于全球60多个国家及地区,服务于1500多个客户,拥有500多家商业合作伙伴,并广泛应用于金融、运营商、政府、大企业等行业。

2019年6月6日,中国发放了首批5G商用牌照。专家认为,5G将以全新网络架构,数十倍于4G的峰值速率、毫秒级的传输时延和亿万级的连接能力,开启万物泛在互联、人机深度交互、智能引领变革的新征程。5G也将加深当前的大数据和“数据洪荒”困境,而面向“数据湖”的FusionData智能数据解决方案发布,恰逢5G商用时代的开始,无疑将成为“5G+大数据”的时代“地基”。(文/宁川)