提示:您的Flash Player版本过低!

大数据技术分享

2015年2月5日,品酒沙龙活动走进青岛。在探讨大数据如何帮助企业获取竞争优势的同时,还带领各位嘉宾体验了在酒文化领域里大数据扮演怎样的角色。

视频实录 INTERNET&IT

可以说云计算和大数据是最近这几年来,非常火热的技术。不管是在产业界、学术界还有政府以及资本市场,大数据受到了热捧。其实如果我们几年前谈大数据概念的话,这两年大数据已经在落地,包括像院线、银行,互联网更不用说了,在传统行业大数据已经不是概念,已经逐步落实。

我的议题四部分内容,第一部分什么是大数据,主要从概念层面给大家介绍一下。然后大数据技术,主要是从技术层面。还有跟大家分享一些案例,我们中心金融行业,大数据是什么情况。

首先什么是大数据?百度百科给了一个概念,有一个定义,就是说或称巨量资料,只是涉及到的量达到一定程度的,目前我们已有的技术解决不了的时候,这个时候通过大数据的技术来解决。那么维基百科也给了一个定义,解决由数据巨大、结构复杂、分析众多类似于这种叫大数据,形成的一种数据集合。我个人的观点来讲,大数据是由大量的数据组成一个数据集合。在数据集合上面,经历一些计算,也就是对这个数据处理的一些过程,一些技术。这个是我个人的一个观点。

其实数据是存在文件里,1970年之前是存在文件里。但是存在文件里,有一个很大的可能就是检索物理方面。IBM研究员叫考德(音),他在1970年提出来的十二条规则。基于十二条规则甲骨文在1979年做出了第一个数字工程。1983年IBM用了,1984、1988年之后还有其他公司应用了。这些关于解决问题,本质上解决的是交易。我们银行转帐很多,包括我们处理事物的层面,随后当数据到一定程度后,领导就要做决策分析。也就是在那个时候,我们提出了海量数据存储,以前我们提海量数据。最近10年互联网兴起,互联网玩法已经跟传统不太一致,他解决的不是交易,而是分析,而是数据大量处理。

有一个统计,最近两年传的数据,已经超过了过去有文字以来,到2000年所有的数据。所以我们现在数据的累计,各种载体,各种信息源都产生数据。比如说我们的传感器,包括我们业务系统,数据非常之庞大。大数据跟海量数据哪个大?大数据,多大的数据才叫大数据,这里面有不同的行业标准。前一段我们跟中国联通的大数据的中心主任在交流,他所谓大数据的概念,联通全国有8亿的用户,他认为8亿对他来说不是大数据,是小数据。什么是大数据?因为他一天产生的量,比如说我们打电话、发短信,这些话音、话单。还有就是我们系列,你们打一个电话接通,中国产生很多网络上的信息,这个信息是巨量的,已经不能用tb来衡量,是已经1000个tb,甚至tb上面up不够用了。

什么是大数据?我们给他一个定义,第一个就是我们五个预测流感,因为最近流感比较流行,对于流感来讲,这是各国都面临的问题,因为可能会造成很大的伤害,对整个社会,那么就需要预测。传统的预测是什么?这个信息从医院不停的往省级汇总,然后到北京,然后再下结论,是什么原因。

我国采用另外一种办法,他根据大家搜索,一旦出现问题的时候,比如说我们发烧,我们可能要去查,或者根据我们的症状去网上搜索,这个病人到底是什么原因起的,怎么样来治,这个大家好像内事不决问百度,外事不决问谷歌。所以就是说谷歌是什么呢?根据大家搜的记录,会产生大量的数据,根据这个数据去搜,最终他预测出来,他比卫生部提前1、2周预测出来是H1N1要流行,流感要流行,因为时间就是生命。他很快就就能够预测出来,采用的方法就是大数据。

这个企业后来被微软收购。发展一年时间,最后1.1亿美元被收购。微软为什么会看到他的价值?他实际干了一个什么事情?很简单他预测机票价,对咱们来讲,比如说我们要去旅游,我在半年前买的机票价格,和我1个月甚至头一天买的价格是不是不一样。并不是你买的越早,你机票价格越便宜,其实并不是这样。有可能根据旅游的路线,如果他都不买,他为了保证满员率,可能你后来买的价格还便宜。所以这是做了这个,他从旅游信息去抓这些信息,他抓到了很多,然后做一个分析。这是对我们个人来讲非常有价值的东西,他不关心什么原因价格便宜了,他只关心什么时候降,什么时候便宜。

第三个是水利局,有很多的管道。管道会存在一个问题,就是年久失修的会老化,一旦老化他的水会冒出来,居民会受到很大影响。所以他在水管上装传感器,传感器传上来大量的信息,对过去出现问题的这些管道进行分析,然后去定位。哪些可能潜在的要出现风险估计,他得到的结果,比以往方法预测大于3倍另外有风险的比例减少了2.4%,这块的话通过大数据进行分析决策。

总的来讲他属于特性,有这么几点。第一你的亮点,你的数据几千行、几万行这个没有意义,我们传统的方法就能解决,不需要你大数据这是第一点。第二点持续要更新,比如机票的价格。第三预测,需要你有预测的功能,非常快能够预测出来,我们关注的是什么?我关注结果,我不关注为什么,我只关注结果。

我们大家如果对大数据有一些了解的话,我们在网上也会看到大数据思维,包括什么呢?体积量大,第二多样性,包括他数据结构,我们现在关于数据结构已经不是二维的。有一个网页。网页里面不是二维的,那是半结构化,或者微结构化。不仅仅是二维的结构,所以是数据的多样性。而现在我们存在,关于数据库里面的数据,只占我们实际数据的5%—10%,也就是说剩下90%并不在我们库里。所以对我们将来预测和分析,或者说我们现在已有的企业数据潜能,并不能完全发挥出来,就是沙子里拉金子。

以前我们做数据分析,我们是统计,而现在我们不是了。我们是从大量的浩大的信息里面,发现这样的信息,还有速度,就是要求实时。速度要是非常快。大数据本质,就是刚才我们说的,从更大数据里边,去挖掘出这样的信息。实际这个里面,各个我们都在系统里面,包括我们自己内部系统、IT系统,包括营销系统服务网络,这些我们内部系统,还有外部系统。比如社交媒体的信息、今天的数据,竞争对手的东西,这都是利于我们挖掘他。

这个图的左边就是我们的数据源,我们的交易数据、我们的应用数据、机器的数据。包括社交媒体还有多媒体的,对于社交媒体来说,可能更多是互联网企业。那么对于我们传统的,比如说我们按交易完善,现在银行做一个,银行在上大数据,以前有一些已经上了,以前是概念的,现在已经上了。那么他解决一个什么问题?就是最简单的,咱们要是查交易历史,我去查我这张卡,我从办这张卡到现在,我所有的消费信息,我要查出来。但现在我们的银行里面只提供1年的,为什么提供1年。因为这个量太大了,我们现在承载不了那么大的数据。那要怎么做呢?我们做个大数据,可以把过去所有消费都存那去。都存那库里,客户满意度就慢慢提升了。所以这是基于银行交易历史,做的一个大数据。

那么还有机器数据,机器数据是什么?从一些摄像头、传感器传上来的数据。以前这些信息里头我们直接把他不要了,或者说我们认为量太大了。现在我们有一些机器数据,是用做我们将来预测分析的。比如说简单的拿交通行业举例子来讲,交通行业我们知道,我们开车是不是到路口的时候有摄像头,到重要路口都有摄像头。这些摄像头信息,以前对我们来讲他主要是抓违章,现在还有一个重要原因,交管局应该干什么?他用来抓捕,他这一信息,信息来了之后,交管局立刻要分析出来,这样知道是不是可疑或者说是不是有暴恐的一些嫌疑,那么怎么看呢?这些信息立马传过去之后车牌号,什么时间到哪个路口,这些信息立马分析出来,而且他的轨迹你马上分析出来,所以这是非常有价值信息。

这些信息以前是不是就忘了,关于数据库同一个路口。你比如每天有500万辆车,同一时刻,同一路口,这数量非常庞大,怎么样能快速把他抓住,利用大数据。那大数据涉及到的行业,我们现在强调什么?制度的地球,制度的医疗等都是制度的,这些制度后面依赖的是什么?实际上是大数据,有可能是大数据后面的运算,大数据的这些计算。这是大数据行业应用,这里面列为一个行业。我们现在可以看,这个里面有一些应用的可能性。比如说我们知道互联网界,最适合做大数据,互联网数量大,云数据最重要的一个方向。另外他需求量高,还有你需要一些营销,所以他最适合大数据。

另外电信,电信是传统行业里最早上大数据的,为什么?因为他的量太大。包括我们以前,我做DB2的时候,我们现在移动里面的大部分客户,在仓库系统的建设。国内目前最大的数据仓库的量又创新高,他在几年前就已经达到800G了。那么他存在的最大问题是什么?既使是存在800G他也要把以前的这些数据,记的非常清楚,否则他要权衡以后,他8个PG也装不下,这是数据量构成一个问题。另外还有一个是什么?就是我从交易系统抓的数据,从5万大家都做的非常多在处理的过程中,需要的时间是非常长的。第二天又要很快时间出来,所以这种需要在很快的时间内,把金额算出来。所以在这个行业里面,大数据非常需要,我们还有金融。

另外现在他说互联网金融的数据,一直在大数据里面也要做一些变革,另外刚才你提到的包括交通和能源,还有电力系统。电力系统怎么做呢?现在有一个什么呢?电力系统我们的电表,电表通过传感器,用电的情况,用多少电,什么时候用,传上去。以前可能一天传一次,现在可能15分钟、10分钟甚至1分钟传一次,所以这个量极其的庞大。

第一部分是大数据,在讲的过程中,不仅仅针对他的特点,而且他应用的一些产品也有。接下来大数据平台,大家做技术,大数据平台其实简单来讲就两层,一个是存储,一个计算,存储就是我的数据怎么存呢?通过文件系统来存,还有什么呢?关于甲骨文的DB2不仅仅是这块,这都不是新的技术。包括我们文件系统,适用于大数据平台的文件系统。上面计算层是什么呢?就是对你上面这个数据怎么算的快,有一些平台和基础,那么用来解决批量处理的问题,大量数据我怎么样把他算出来。

另外有一些云处理,刚才我们说的摄像头抓那个,实际上是流过来的数据立马基于一定的规则,把他排列出来,传统的我们做不到。流技术发展的特别火,从技术层面讲,刚才我们说的是平台的角度,那么具体实现,有一些像哈度可(音)平台。大家都知道,非常火,实质上的标准基本大家提大数据都要为什么?他想出来的一个平台。谁能想出来,就是那几个互联网技术,国外的互联网技术,像谷歌、亚马逊等。

那么上面就是一些运行技术应用,刚才我们是从技术层面来讲,基本上就是几个案例分析。其实我们刚才已经提到一些,怎么应用?刚才我们说的流计算,其实IBM在流计算这块做的比较广,一个商业这是一个平台。他采用其实就是通信行业里面的信息系统分析,因为流量大,而且使用率高。

伊雪莉(音)这个是采用IBM分析解决的一个短期运营商,短期运营商一个案例。大家关心的几个问题,我也从这个方面来讲。第一个大数据,我已经有数据化库,我还上大数据干什么?我们可以看,大数据定义我们要分析某一个产品,在某一个时间,在某一个地点,他统计的是销量或者是金额。而大数据,我要归在某一处,归在基本营销。一个是统计,一个是针对客户实体,针对于个人。

本期嘉宾
栏目介绍

聚焦最前沿的经济和信息化热点,以直观的方式,多视角、全方位解析IT、互联网、产业经济等方面的热点话题、技术变革以及行业趋势。

相关文章 INTERNET&IT

往期回顾

幕后制作 INTERNET&IT

分享按钮
Baidu
map