2019中国金融科技产业峰会丨星环科技创始人 、CEO孙元浩:专题发言

2019-10-31 14:30:00 1

2019(第二届)中国金融科技产业峰会于10月31日在北京国际会议中心正式开幕。星环信息科技(上海)有限公司创始人 、CEO孙元浩在会上做专题发言。

星环信息科技(上海)有限公司创始人 、CEO孙元浩

前面几位嘉宾更多的从金融的角度来阐述了金融科技的一些现状和未来的发展趋势。我就从技术角度,因为星环科技是技术公司,从技术角度分析一下新的技术在金融行业的一个应用现状。

首先介绍一下星环科技,我们是一家创业公司,2013年成立,专注做大数据的核心计算引擎、存储引擎以及AI的分析工具,包括容器化的云的基础设施这一块,这三大产品已经在20多个行业已经有1600多个客户在使用了。

大数据技术的话,是在去年的时候,美国一个知名分析机构把它分成三代,它是从两个维度分析的,第一个维度是从开发的容易程度,从早期大数据、人工智能技术最早在互联网公司、在大型科技公司他们有比较大的IT合作研发团队,作为一个技术还不是作为一个产品在使用,它的管理也是非常复杂的,通常规模也是比较大,几千台到上万台的规模。到了2.0的时代这个技术逐渐开始产品化,开始有更多的企业在使用了,特别是500强企业在使用这个技术了。但是这个技术仍然过于复杂,对客户的要求非常高。到了3.0的时代,这个也是市场的一个需求,大家希望这个技术能够开发越来越容易,甚至业务人员不是IT人员都能使用大数据和人工智能的技术,可以通过微服务和通过云的方式对外提供,从这个意义上来说,从运维和开发的难易程度来看国外的分析机构把大数据分成了这三代。今天我们正处在第三代的过程中,技术越来越成熟,产品的应用型也越来越强。

我们还是从开发和使用的角度来看,从技术本身来看,我们认为它已经引进了下一代了,同样的一个特点是让我们要让这个技术更容易使用,让更多人使用这个技术。我们如果去分析这个数据处理它的应用场景的话,我们分为两大类,一类是交易型、一类是分析型,总共有九类应用场景,从在线交易、实时计算、在线分析、数据仓库、数据集市、NoSQL分析、预测性分析、视频语音文本分析、数据探索。面临这不同的应用场景我们认为应该有统一的数据操作语言和查询语言,今天主要是SQL。同时在SQL当中也增加了机器学习。今天用机器学习的还有R/Python语言等等语言进行机器学习和深度学习,未来可能会有融合的语言出现,语言统一的话可以迅速标准化,能够让更多人使用。

同时我们认为计算引擎也在进行融合,未来也会出现统一的计算引擎。今天分成两大类,一大类是数据计算引擎,主要做统计分析,做数据相关的操作,另外是深度学习引擎,主要是用于视频、图象、文本的分析,未来有可能两者会统一。统一资料引擎已经把各类数据库囊括在里面,包括实时处理和图文计算都统一掉了,未来有可能其他方面也会被统一掉。

下面一层会有不同的存储机构体现在不同的数据库,只不过他们存储引擎不同、存储模式不同,但是计算引擎是相同的。我们这里列出了有七种不同的数据结构,未来很长一段时间内随着发展它们不大会被统一,因为受制于现代硬件和未来硬件的发展的局限性。但是下面我们认为应该有一个统一的分布式存储管理系统,同时资源调度、CPU内存、网络、I/O的操作调度也应该被统一掉。我们认为未来数据处理的技术特征应该是有四成是被统一掉的,只有存储层是不同的,这样使得整个的数据的开发和使用都会极大的简化。

这里简单介绍一下从大数据技术来说、从星环自身角度来看,我们过去也是在改造这个开源技术的,从2013开始到2015年我们都在改造这个开源技术,2014年底,我们发现金融客户的需求越来越高,比如需要数据的一致性,对数据数据一致性要求非常高,高于任何其他行业,同时对实时处理要求越来越高,需要做实时风控、实时营销、实时定价等,数据量比较大,因为中国金融企业面向的客户都是C端的客户,数据量非常庞大,一家银行一家股份银行城商行的用户超过美国全国的用户。对大数据的处理需求非常迫切,使得星环不停地在重构整个软件站,今天我们在存储引擎层、计算引擎层,在编译器层实现了统一,都完成了重构,国内一些需求使得我们开始领先美国同类厂商一到两年的时间。

我们回过头来看金融行业大数据的分析,我们今天大概有200多家金融客户,把他们分析下来,基本上按照使用技术阶段分成五个阶段:第一阶段,大家先开始用数据平台存储、收集各种类型的数据,汇集各种业务的数据,提供数据的查询服务,这是第一步。第二步开始利用新的技术来做统计分析,来做数据探索,这步主要可能应用的场景一个是运营分析、一个是监管报错,同时外部数据进来以后可以做一些数据探索,能够对风险、对客户的画像更加精准。第三步有部分金融机构开始利用分析结果来预测业务,比如说获取更多的客户、制定贷款的价格,第三步已经开始进入到业务中去了,但是依然是离线过程、辅助决策过程。第四步有些金融公司利用分析结果实时切入到核心交易系统中去用来做实时风险定价,甚至直接利用基础的分布式交易系统,这一步业务开始使用新技术,切入到核心交易系统中。今天我们看到有不少金融机构的开户、消费贷款业务、实时的推送都已经在使用这个新的技术了。到第五步的时候我们看到随着深度学习技术的发展,在智能客服、在智能营销、在智能化风险这块也开始尝试新技术了,这部分我们看到有一些少量尝试,但是不是还很普遍,我们大致把应用过程分成这五个阶段,基本上现在客户使用新技术走了这样五步过程,处理从P处理慢慢走到了实时。

我们分为银行和证券基金两个行业,分成不同种应用,在银行里面它的应用场景主要在四个维度上,一个是在平台服务上面,基础的IT设施上面有蛮多的客户在建大数据和人工智能平台,这里面覆盖了九大应用场景。同时在客户服务这块,包括客户的精准的画像,包括客户的精准获客和营销,这块也在大量地使用新技术。第三维度是在经营分析方面,包括监管方报送在绩效考核、在业务的统计这块也有比较多的应用。第四是在风险管理维度上,贷前贷后贷中都在使用这个新技术。我们总结下来,这里我们列出来20种不同的应用,但是其实每一类应用当中又分成好多种细的小的应用,所以整体来看金融行业,特别是在银行当中使用大数据和人工智能已经比较深入了。

在证券基金行业基本上围绕这几个维度开始应用新技术,一个是在基础设施、在AI平台这块建数据仓库、建数据集市,语音识别等等基本功能在建设过程中。现在开始覆盖到智能运营、智能风控、智能投研、智能投顾等等这块应用场景开始出现了,特别是过去两年之内已经出现几十种不同的应用场景。我们有一个统计,这是在我们200多家客户当中做的统计分析,可以看到横坐标是应用的数量,纵坐标是不同金融类型,跟我们客户分布也有关,总的来说城商行在大数据和人工智能领域应用数量是最多的,一个很大的原因是城商行面临的竞争环境更为激烈,他们在IT、在信息化层面没有太多的历史包袱,可以比较快地使用新技术。第二是在股份制银行当中使用也是比较多的。其次还有省农信,各个省农信联社是天然的数据汇集地,一个省下面有几百家农商行数据都在集中到这里,它对集中的数据管理、集中的数据分析要求也比较迫切。其次是证券公司,证券公司主要的应用场景是在AI这块,在高频交易、定价,在风险管理、资讯推送这些应用场景中现在应用得比较普遍了。其次是农商行、保险公司。我们看到民营银行也是新技术的主要的拥抱者,几乎所有的民营银行全面使用新技术,采用新的分布式核心打造新的核心交易系统,采用AI技术技术采用到它的风控系统等等,不再用以前的技术了。

在这部分当中,目前加起来应用种类加起来超过200多种。应用的类别刚才我们也列了分五步走,基本上我们统计数据也说明了这一点,从最开始的基础设施和数据服务这块投入目前是第一步的,这是投入最大的,其实是运营管理。再次是营销,因为现在银行的竞争获取客户包括差异化服务上面不停在推陈出新,所以在客户管理这块投入比较大的。其次是风险控制。这三个是我们看到是金融机构在使用大数据、人工智能技术上面用的比较多的。

我们总结所有的应用,我们分析几百个应用当中看到有三个新的趋势,动向下的,第一个动向在基础设施这一层大家逐渐开始把传统的风险核心,原来用的传统数据库开始用分布式架构来替代了,这个是从去年年底下半年开始一个明显的趋势和新的动向,大家纷纷开始在使用分布式的数据库技术,或者有的大数据数据还不是分布数据库来逐渐构建分析系统取代传统的数据库,其中包括甲骨文、DB2等等数据仓库版本,这些主要的动力来自于数据量偏大,需要用新的分布架构来解决。我们看到现在我们已经有一些金融客户,以往是在央企做分布式架构做数据仓库,包括监管机构,包括股份制银行、农商行开始取代传统的数据仓库了。

第二大动向是数据分析已经作为云服务对外提供了,很多金融机构发现刚开始用新技术是一个两个创新点,很快大家发现技术本身应用场景非常广泛,大家开始把技术希望变成服务化的,有一些股份制银行应用数量超过50种,就是在大数据和AI上面的应用已经超过50种了,开发团队也有几百人,有不同的小团队开发不同的应用,这个时候不是单一化的服务了,它需要一个弹性的、高度自动化的或者半自动化的一个服务设施,我们也看到大数据和AI尽快地在变成微服务化,也能变成使用云服务一样便捷。

第三大动向是AI和图分析技术的结合,特别是在今年年初也是一个新的应用热点了,它的基本的思路是首先把客户量化,再把它泛化,看看在其他场合能不能用,通过训练发现在其他场景中也可以使用就固化成一种模式,比如做风险定价和营销。这里面有一定的数据可以支撑。

我们基于机器学习和图分析技术,我们发现有这么多种应用了,从银行的反欺诈、反洗钱,到证券公司通过知识图谱来预测价格,来做这些违约的预测。这里有几个例子,比如这个例子是讲债券股票风险的传导,这个例子我们看到通过舆情分析发现在海外发生了零散订单的价格从两美金涨到十美金,一公斤涨了五倍了,通过构造知识图谱我们发现在中国牛磺酸主要的供应商占最大的市场份额是永安药业,海外出口大概22%,海外很多订单来自永安药业,海外订单价格上升影响到永安药业的销量,我们把这些信息构造成一个知识图谱,可以推测上市公司股价可能会发生上升,我们看到8月份的时候确实股价上升了。今年价格又回落了,原来的原因供给不足、需求增加,价格上涨今年又回落了,很遗憾当时追着买永安药业的股民被套住了,今年10月份价格又下跌了。这就说明通过知识图谱可以预测事件的传导。

第二还可以用来做异常交易的监测,这个例子是用来看哪些是异常交易,我们可以通过交易对象包括交易者的一些关联关系,可以构造一个图谱,同时可以对交易结构进行分析,看看是不是有相互的交易结构,判断它是不是关联交易或者是内部交易。同样通过机器学习识别潜在的欺诈账户,然后通过图谱找到跟它有关联的账户,这样可以扩大整个欺诈的监测范围。

同时我们通过在图上应用深度图技术,这是最近这一年新的发展趋势,大家用已经识别的洗钱的交易结构来匹配现在所有的交易,看哪些交易结构跟潜在的洗钱结构是类似的,这个是通过深度图技术实现的,可以发现用传统技术不能发现的一些洗钱行为。

总的来说,从技术角度来看,我们看到整个大数据和AI技术在进行融合,它的使用方法越来越简单,也会变得越来越云化,今年整体的应用趋势来看,分成三大新的动向,一个是从传统的数据库过渡到分布数据库解决效率的问题,第二是大数据和AI基础设施变成微服务化,可以弹性提供了。第三是AI加图谱的结合今年也是新的热点,我们预计在未来一到两年过程当中,因为我们看到有一些银行证券公司应用场景有50个了,大部分银行是1-10个应用场景,预计未来一到两年过程中这些应用的数字会加快,会更多的产生新技术。我的演讲到此结束,谢谢大家。