12月14日,由中国产学研合作促进会指导,中国客户管理产业创新联盟主办,中国客户管理网、清华大学中国企业研究中心、清数大数据产业联盟、迪铭咨询、清华校友互联网与新媒体协会等多家机构共同举办的2017第八届中国客户管理大会暨首届中国客户管理奖颁奖典礼在北京清华大学隆重举行。
SAS中国研发中心总经理刘政发表了《智能时代的大数据分析平台与体验应用》主题演讲,以下为嘉宾发言实录:
大家好,我今天主要讲的是大数据分析平台,如果对数据分析感兴趣的话,可以听一下。自从计算机技术出现以来,数据分析技术已经走过了40多年的发展时期。在过去的40多年里,SAS在这个领域应该说一直处于领先的地位,其中有很多标志性的产品,我在这里给大家简单介绍一下。
1966年我们做出了第一款可以做数据分析的软件,比如说做一些方差分析;1972年发展成为一个比较完整的版本,把基本的统计分析方法通过计算机计算出来。早期的数据分析都是在IBM大型机上运行的,当时还没有PC个人机。1980年我们有了第一款可以做图型展示的分析软件,SAS也是第一个能够显示图型化的公司。1985年我们有了一个支持多种软件操作系统的平台,SAS软件可以在很多平台上运行。1986年我们开始支持DOS和Unix系统。1999年有了数据挖掘软件。2002年又有了文本挖掘的软件,可以对非结构化的数据进行分析。2004年我们发布了SAS9,这个平台可以支持分布计算,把一些计算分到不同的机器,支持多个CPU。大家知道大数据在2011年出现,那时候我们有了高性能分析。2012年出了第一款可视化软件,把过去商务智能的分析用可视化的技术来做。去年的时候我们发布了第一款云上运行的软件平台Viya,可以支持大数据分析。今天我主要给大家介绍一下传统的数据分析平台和今天在云上运行的数据分析平台的特点。
做一个数据分析的基础架构应该满足什么样的要求呢?我们有一个架构的规范,怎么样去思考软件的架构呐?我们看一下它的业务分析活动(横向):包括数据源,包括我们要通过什么方式做知识发现,还有最后结果的共享。我们做的这些分析活动还跟属性有关系(纵向),例如数据源部分,我们需要具备的功能:数据采集、数据的清洗、还有操作等。我们做这些东西需要哪些技术?数据获取工具、数据质量的算法。它跟做IT数据管理的这些人有关。它提供了什么样的价值?这里都有,包括各种模型,怎么做知识发现,可能建立一些打分模型等,通过这个技术平台都可以达到。
数据分析的架构有什么样的特质呢?我们知道技术在不断地发展,你现在有的一些模型,过一段时间可能就不够用了,比如,现在的机器学习,深度学习,有很多新的模型和技术要加入进来,我们需要你这个有扩展性。过去可能仅仅读取一些结构化的数据,现在可能要读取一些非结构化的数据,还有各种数据源,这些数据都要加入到这个平台上来。再有是它的可管理性,平台能够管理全生命周期的数据分析。可信赖性,就是它能否按时按要求给出结果。它不能是非常独立的东西,这个东西应该在这里做完以后,还可以在其他地方使用,就是可以与平台外的环境互通。
我们看一下企业管理平台。众所周知,在运营平台上,我们会有一些企业管理的软件,这些软件可以帮助你获取很多的数据,包括我们的ERP、HR、CRM以及供应链方面的软件等,这些数据获取以后可以通过分析平台进行分析,分析的结果拿到生产力的平台帮助你做一些决策。一个比较完整的企业平台应该包括上图这三个方面。
我们看一下SAS建立的企业数据系统和客户端的互通,中间这个地方就是我们SAS的分析系统,它能支持行业里面很多的操作系统,甚至包括大型机的系统都可以支持。另外包括支持一些管理软件,ERP的软件,甚至包括各种文本式的数据都可以进行分析,同时它能支持很多的客户端,例如你在做管理和工作时使用的企业的软件。
我们把刚才压缩这部分展开以后,就可以看到它的数据分析系统里面所包含的内容。内核是高性能分析,在此基础之上,有信息管理、数据分析、商务智能模块。基于这些基础的数据分析,我们还有外壳的行业解决方案,金融行业、通讯行业和零售业等各种解决方案。
SAS分析平台的核心就是高性能分析技术。高性能分析组件包括网格计算,就是模型以及计算都可以拆分计算,也可以在不同的机器、地域进行运算集成。另外一个我们叫“库内分析”,原来是把数据从库里读出来进行分析,现在模型、分析方法都放在数据库里面,我发指令模型就可以自动计算,这样一来就减少了数据传输的过程。第三个方法就是比较普遍的内存计算,把数据加载到内存里面进行运算,这样我们可以获得非常快的速度。这就是我们的高性能分析技术。
这是信息管理部分,主要还是处理跟数据相关的。很多数据都有不同的来源,即使同一家公司也会用不同的数据库,这些东西如何集成在一块,这是非常大的工作量,还包括数据质量、数据清洗等。我们知道还有数据流和物联网,因此,需要包括数据流的处理:包括决策管理、模型管理和模型部署,这就是信息管理部分。
关于分析部分,我们可以看到这里有文本分析、运筹学和内容分类,还有预测、统计、质量提高、模型管理,还有时间序列,还有文本分析、情感分析、计量经济学、统计分析等,这些都是我们用做数据分析的工具或者软件。
商务智能部分就是现在做到了可视化,这包括数据的准备,数据的管理和探索,还有它的报告设计等等。
这是我们外层行业的解决方案,包括金融行业,供应链管理和客户关系管理,不同行业的各种解决方案。
我们刚才看到的平台,基本上可以说是基于传统的数据分析,现在有了云计算这个技术,另外也有了大数据。大数据对数据分析提出了新的挑战。包括数据容量非常大,我们如何处理;另外一个就是它的类型特别多。我们过去主要分析的是结构化数据,现在有很多的非结构化数据,这些数据怎么处理。我们应该有新的数据分析平台。
数据分析平台应该做什么?
一个要支持云计算的新模式,很多软件都是在云上运行,我们的数据也在云上,我们新的分析平台也要做到支持云计算这种模式。另外一点就是集成数据分析的各个环节,数据分析是非常繁琐的过程,如果这些东西通过不同公司产品弄在一起,它的分析效率就会大打折扣,如果把这些环节集成在一个平台上就能提高效率和性能。第三就是数据的来源,来源非常多的情况下,怎么进行数据筛选清洗。你要支持多个厂商的产品,云产品有很多的厂家,各种数据的存储也有很多厂家,还有其他方方面面的、第三方的、产品中间商的产品,来自于很多的厂商。现在的数据分析不能是孤立的部门,在整个企业内部、各个部门都要做到与数据分析技术有关。他们怎么样一起工作?首先要有一个共同的环境,减少脱节。再有就是拓展新技术和算法。我们现在的算法也在不断地出新,怎么把这些东西加进去?另外就是大数据技术支持的广泛性,我们知道数据技术其实跟计算机技术一样,是各行各业的基础,包括传统的行业:金融、通讯和零售业各个方面要基于数据分析做智能化的决策。新兴行业,如物联网、人工智能、金融科技和生物工程,所有的新兴行业里主要的技术也是计算机技术和数据分析。我们需要大数据支持它的广泛性。再有平台是改变世界科技大趋势之一,这是福布斯刚刚公布的2018年技术趋势中的九大趋势之一,即平台化。我们知道滴滴打车、Uber都是平台。他们虽没有车,但可以搭建一个平台让大家用,Facebook也是平台。
SAS的Viya大数据分析平台是在云上运行的。目前西方世界流行的云厂家提供的平台都支持。从数据上可以看到,数据不但有过去使用的传统数据库,还有存储大数据的Hadoop和流数据。数据源跟过去大不相同。它的核心部分还是我们讲到的高性能分析平台,里面包括分布式计算,内存计算。我们采用微服务的形式,里面有几十个微服务的组件,即使里面几个组件坏了不工作,这个系统也可以正常使用,同时你可以进行修改和升级。元数据的概念已经通过微服务组件来替代了。这里面增加了很多的算法:除了过去的统计分析、数据挖掘,还增加了新的深度学习、神经网络的模型,能够提供人工智能的分析工作。这个平台是开放的,不但支持SAS语言编程,还支持其它的语言在上面工作,比如,Java、Python、Lua等语言。Lua是袖珍语言,特别适合给传感器开发程序,因此,此平台也支持物联网的工作。这样,具有不同技能的人都可以在这个平台上同时工作。在平台之上有很多的行业解决方案,它的基础是基于可视化技术。我们把统计分析、数据挖掘、文本分析等的软件全都做成可视化的,就都可以在这个平台上面运行。我们可以看到这个平台集中了云技术,大数据分析技术,人工智能技术,和物联网技术。四项大的技术都能够集中在这个平台上使用。
Viya的特性:
首先,它在云上,你用多少资源,就让你付多少费用,你用多少个CPU,你的内存多大,根据你的使用情况来支付,比较弹性和灵活。其次,它有很多创新的算法、模型,并且支持移植。再有它是一个很统一的平台,把很多技术串在一起。最后,它是一个开放的平台,支持多种语言编程和API。
数据分析部分,包含有数据分析全生命周期的内容。获取数据进行管理和集成;建模的部分,就是支持发现,进行预测、建模和自动化;最后,就是你建好的东西可以部署在不同的地方,包括数据的准备、事件流的处理还有数据的连接,可视化分析、可视化统计、计量经济学和机器学习,软件里面也都包括了,还包括模型管理和打分。
这是使用者的情况,包括数据科学家、业务分析师、行业专家、应用开发人员、IT管理人员和高管等。
传统平台和现代平台是可以互通的。你过去做的很多工作可以移植到新的平台上,你在新的平台上做的工作也可以移植回来。我们可以看到这里有一些不一样,我们过去使用的元数据全部用微服务代替了,新平台是全部浏览器支持的平台。
这是一个物联网架构,在交易系统上的一个应用,它从交易平台获取数据,通过事件流处理,进行筛选找到适合的数据进行分析,通过内存风险分析可以得到一些风险信息。
这是Viya人工智能方面的应用。底层包括机器学习和深度学习和自然语言处理技术,提供模式识别、预测、认知计算、分类、搜索、图像识别、语音识别等。应用包括了银行反欺诈、信用分析还有智慧城市,健康和生命科学里面的图象识别,还有优化供应链和机器人,能源预测等。
Viya出来之后有了许多应用案例。一家全球汽车贸易公司,业务人员分布全球,如何让这些工作人员在一个平台上同时工作呢?他们考虑使用Viya的技术。一家汽车电子商务公司,过去需要16个小时做出的模型,现在用高性能分析技术只需要8分钟就可以做出来。还有一家工业物联网公司,使用SAS事件流分析工具。一家银行通过神经网络技术处理不断增加的复杂的信用风险模型。一家信用报告公司用Viya支持全生命周期的数据分析工作,通过机器学习和深度学习技术完成一些特定的模型。一家零售商可以把它过去的数据移到云上去。还有一家医疗保健公司建立机器学习平台。一家通讯公司有很多的工作人员,大家会的语言不一样,都可以通过Viya技术平台一起工作。还有保险公司代理人有时候可能误导客户,系统可以发出预警,提高客户体验。这次特朗普访华,SAS公司也是随从团员,跟深圳市政府和中兴签署了一个合同,我们也是卖了一套Viya平台给他们,用来建立了一个制造业的大数据中心!我就讲这么多,谢谢大家!
本文来源:客户管理网