Teradata CTO宝立明:运用分析引擎实现机器学习和深度学习

2019-06-17 17:29:00 来源:51CTO

近几年,机器学习、深度学习以及大数据分析一直是热门话题,人工智能在金融、营销、软件开发、战略决策等领域的应用也越来越普遍。

数据智能技术供应商Teradata天睿公司于去年推出下一代分析平台Teradata Vantage,提供描述性、预测性与指示性分析、自主性决策、机器学习、可视化工具等广泛功能,致力于解决当前分析方案中的各类问题。Teradata Vantage的高级分析是如何利用分析处理引擎实现机器学习和深度学习?上市半年来取得了哪些阶段性成果?这些问题在近期召开的Teradata媒体会上得到了详细解答。

高级分析的三个发展阶段

Teradata天睿公司首席技术官宝立明(Stephen Brobst)认为,高级分析的发展可以分为三个阶段:第一阶段是描述性分析,用于洞察过去;第二阶段是预测性分析,能够了解未来;第三阶段是指导性分析,为可能发生的结果提供建议。Teradata开发的Vantage软件平台属于第三阶段的产物,能够为企业提供最佳的高级分析能力。

博般数据

Teradata天睿公司首席技术官宝立明(Stephen Brobst)

如今,机器学习技术取得飞速发展,其能力超出人类的例子也比比皆是。最让宝立明印象深刻的是,在某界国际象棋比赛中,来自挪威和美国的两位象棋大师在最后一局打成了平局,经过软件分析后得知,挪威象棋大师本可以在60步内将死对手,但是由于象棋大师只能预测几十步以内的可能性,对于60歩的结果完全无能为力,最后只能打成平手。

行业预测表明,一些需要简单体力或脑力劳动的职业将被机器取代,如收银员、卡车司机、简单翻译、放射科医生和个人信用评估等等。实际上,机器学习的预测能力已经被应用到企业的实际业务中,为企业的未来发展指引方向。

目前所谓的人工智能都是增强型人工智能,它还无法完全取代人类,只能增强人的能力。例如,软件可以帮助医生诊断一些疾病,但是机器的诊断分析只能提供参考,最后还是要靠医生选择治疗方案,进行治疗。由这个例子引申开来,人们在制定策略、战略时,可以让智能化的软件辅助我们实现这些战略,AI不止能够帮助企业提速降本增效,还能帮助企业管理者将战略制定得更长远,更完美,Teradata Vantage正是为了这一目标而存在。

Teradata Vantage高级分析平台

Teradata Vantage高级分析平台在架构上可以分为四层,由下至上分别是数据源、分析引擎、分析语言和分析工具。此前,Teradata收购了一家来自斯坦福大学的创业公司Aster Data,创新性地同时集成了Map-Reduce和ANSI SQL引擎,能够将上层的分析引擎与底层的存储设备打通,进行大数据分析和计算。

Teradata Vantage的分析引擎层包含NewSQL引擎、机器学习引擎、图形引擎、Spark引擎、TensorFlow引擎以及一系列定制引擎。宝立明强调,Teradata Vantage的机器学习引擎由广泛的分析功能组成,除数据准备、非结构化数据分析功能以外,还涵盖人工智能、统计、文本、情感判别等200余种分析引擎,便于科学家进行描述性或预测性的分析。图引擎可实现关联分析,并了解网络用户、产品、过程乃至任何联网实体中这些关系将怎样影响结果。其中,每个引擎都用Docker做成Container封装起来,不断迭代。与此同时,基于开源的OpenStack平台和商业分析引擎,让开发者们可以开发出一些内部引擎和工具集。

在分析语言方面,早期,Teradata推出了高性能和高可靠性的Teradata关系数据库管理系统,该系统采用标准的SQL查询语言,适用于处理复杂查询的数据仓库应用。随着预测性、指导性高级分析需求的逐渐增多,SQL这一结构性的查询语言已无法满足需求, Teradata陆续将NoSQL,R,Python,NewSQL,SAS等语言纳入进来,结合顶层的分析工具以及广泛的商业智能与可视化工具,让企业的分析师和数据科学家无需非常了解机器学习算法即可用到机器学习的能力,为用户提供预测性、指导性的高级分析能力。

Teradata Vantage本地化最佳实践

为了满足中国市场的本地化需求,Vantage平台支持百万级乃至上亿级用户体量的高级分析需求。据介绍,Teradata在中国的诸多银行客户纷纷开发出了相关的分析引擎,使数据科学家们能够利用任何他们惯用的开源或商业的语言和工具,充分利用不同的数据源,通过各类分析引擎,与不同的应用相结合,访问、共享位于分布式存储以及对象存储中的各种格式的数据。

宝立明透露,通过机器学习的高级分析能力,Teradata帮助银行客户将信用卡欺诈诊断率提升50%,误报率降低80%-90%。银行客户利用机器学习、神经网络的算法和引擎,能够预测流失率、流失原因以及用户去向,通过对信用卡交易时间、地点和频率的分析,快速进行可疑交易识别与欺诈行为判断,从而规避交易风险,提升客户体验。

除银行客户外,制造业、物流运输业以及电信等行业也将高级分析能力用于风险预测领域,例如预测哪些零部件将在何时发生故障,Teradata将这些高级分析能力打包推荐给客户,助力企业快速提升业务效率。

Teradata Vantage的主要分析用例包括:

1、 功能预测。预测哪些客户会流失,哪笔贷款会违约,以及客户定位、金融预测、营销组合建模、客户抱怨预测、净推荐值影响因素、风险建模、预测性维护等。

2、 客户细分。与传统的客户细分不同,Vantage的客户细分可以多达成百上千个属性,用多维的方式进行归档和分类,选择最具潜力的客户。详细用例包括市场细分、客户流失因素细分、放弃线上购买、破坏过程的关键影响因素等。

3、 了解因果关系。就是通过机器学习引擎了解因果关系来制定一个最佳的客户路径,避免客户流失。包括营销归因、投资回报率、客户流失、欺诈行为路径、实时优化等。

4、 情境。可以通过文本、语音、Email来收集资料,了解客户对商品或服务是否满意。据悉,Teradata在中国开发了基于中文的自然语言分析,实现情感分析,进行客户打分。

5、 网络社交。利用网络社交的相互关系,了解潜在用户以及犯罪团伙的情况,包括反馈/审查集群、了解喜欢我的用户、欺诈网络、线上欺诈等领域。

6、 假设测试。通过变量分析、关联、主成分分析、采样等功能,实现实验、影响力测量、根本原因分析以及过程优化。

Teradata Vantage的三大典型案例

最后,宝立明列举了客户利用Teradata Vantage平台实现高级分析的三大典型案例。

制造业:前瞻性维护

某全球大型制造商的生产设备位于世界各地,这些机器都处于7×24小时连续工作的状态,为了进行部件故障检测、防止意外停机,该公司通过软件对多个设备传感器和性能数据进行监测,通过日志分析、广义线性模型以及各类分析引擎,将停机事件传感器路径与稳定运行事件传感器路径进行对比,隔离性能瓶颈的关键指标,预测即将发生问题的设备,实现前瞻性维护,降低停机时间,节约成本。

零售业:多渠道整合

对于大型零售商而言,往往有众多销售渠道,但是零售商很难清楚地判断哪种销售渠道的影响力更大,更难了解客户在不同渠道、对不同商品的各种互动行为,更无法将线上及线下的渠道打通,进行联合销售,提升客户体验。为了解决这些困扰,某大型零售商运用Teradata Vantage进行多渠道整合,形成完整的客户购买商品的路径,并通过不断测量新渠道活动,确保客户在最短的时间内以最低的成本购买商品,跟踪客户对商品的评论,不断提高客户的满意度指数。

金融业:多渠道监测

如何减少账户关闭事件,是全球银行业共同关注的指标。过去,客户账户关闭与客户满意度模型需要不断地手动调整和干预,有了Vantage平台的高级分析能力,能够结合网银、呼叫中心、ATM机等多渠道数据,自动化的进行分析,从账户关闭的时间点向前分析,找出与账户关闭相关的20余个行为,评估这些行为的风险,进行干预,从而大幅降低账户关闭情况。

总结:

随着机器学习、大数据的不断发展,各类的分析引擎、分析语言、分析工具层出不穷,Teradata Vantage则整合了主流的商业和开源的分析工具,化繁为简,落地各个行业,结合行业的属性与需求,甄选最受行业欢迎的行业分析工具,不仅帮助企业管理数据,更能提供出色的分析能力,提升数据分析师与数据科学家们的用户体验。