推广 热搜: 行业  机械  设备    系统  教师  经纪  参数    蒸汽 

王志东:云计算是个筐 真云假云不重要(2)

   日期:2024-11-10     移动:http://dgaty.xhstdz.com/mobile/quote/60308.html

  我在理解Google为什么会率先提出云计算呢?他所理解的云计算,我相信就是针对他自己的几十万台服务器组成的计算机群而发出的感慨,因为有 那么多的服务器,这些服务器通过并行计算和分布计算各种方式,连成地球上最庞大,功能最强的计算机系统,而且这个计算机系统能够根据业务的需求,能够随意 的变化,30万变50万,50万变80万,80万变100万。这样一种能够随着业务在随时扩张的服务器群,他觉得这个就是一个一个的个体组成了这么一大片 的云。所以我理解云计算最重要的一点就是要有一个整个海量资源,具备最强的扩容能力,也就是说所谓叫(英语),这样的一种能力,这是云计算最重要的一个特 点。如果要总结一句话来理解云计算?我觉得云计算应该是构建高性能计算系统的一种模式,高性能计算系统有很多种做法,但是云是一种构建的方法,它的最核心 的特征,就是我刚才所说到的高延展性。高延展性其实包含着两个层面,第一个层面在于系统构建的时候,它具有延展的能力,它不断去扩充它自己的系统,而且这 个系统扩充的效果又具备相对好的一个可维护性和性价比,因为有很多的服务能不能对外成功,取决于这个服务成本能不能达到经济性。Google现在能够提供 7个多G,而且这7个多G真用了,我那里不够了,他鼓励你所有的邮件留在里面不删。新浪为了提供50M的空间,成本在流血,一上来我们就急,我们就特别纳 闷,中国的网友给你空间你还真用,但是如果说Google还是用原来的方式来提供服务,它绝对承载不了,因为他有了这种云计算的模式,能够把成本降下来, 性价比大大提高,这个服务就能够提供了。第二个要做到这个负荷能力,就是在提供用户服务的时候,针对用户不断规模的增长,服务地区的一个扩张,在要求能力 强度,服务强度的提高情况下,我这个系统能够最好去适应,我相信Google这个云计算平台能够保证每天服务,还能保证很好的性能。

王志东:云计算是个筐 真云假云不重要(2)

  核心是(英语1),但是涉及的技术有100万台服务器连起来,真的要实现要有很多的技术去突破。比如说并行计算的技术,分布计算的技术,网格的 技术,我在看Google介绍自己服务器的时候,他特别提高它的电源技术和降温技术。如果还要往外服务,还会涉及到像安全、计费、资源的调配等等很多相关 的技术,会跟它有相关。但是有一点,我所理解它的核心就是(英语1),之所以叫云计算的最根本的原因。

  云计算是构建高性能计算系统的一种模式,但是这个模式怎么去应用呢?其实这里面分了几个观点,第一个云系统或者说构造出的云平台,是可以为大家 服务的,也可以完全自用,不应该自用就不叫云计算,很多人谈到云计算,都会谈到以后都放在云上,我拿一个手机客户端我就可以随时访问了,这个概念是公用计 算的概念。云计算是构造公用计算的一个最好的模式,但是并不是所有的云平台都必须得做成公用计算,反过来并不是所有的公用计算都叫云计算,这两种关系没有 必要的联系,只是说我们目前用云计算的方法来去构造公用计算,这是一个非常好的模式。Google整个云平台绝大部分能力是来支撑他自己的需要,支撑他自 己的搜索,支撑自己的各种各样的应用。所以云计算对外可以是提供平台的应用,也可以提供应用,云平台也可以是对外服务,也可以是自我服务,现在谈到 SAAS和公用计算,其实都是云计算现在认为最被看好的一个应用领域而已。

  我们在谈云计算的时候,我们经常会提到,最好的云是Google,他们是非常经典的云计算,实际上我认为还有一个非常成功的云计算平台,被大家 忽略了,因为这个厂家自己不做这个炒作,然后所有人觉得SAAS都没有提,我觉得按照我的观点,Skype做的一个电话系统是一个非常标准的云计算平台, 我对它的理解是急于可管理P2P传输网络的一个虚拟长途电话运营商。大家很多年注意Skype,当时我也很奇怪,Skype给我最大的一个震撼就是音质问 题,专门给它做音频编辑码并不属于Skype,Skype也没有把它买了,或者变成独家了,用并不昂贵的价格去买他的系统,所有做云视频,有一种语音都在 买他的(英语),Skype为什么不把这个语音编辑码买下来,他觉得不是他的核心技术。我们回过头看看,其实在Skype成功之前,UIP技术早就成功 了,我记得在96年到旧金山参加一个会议的时候,那个时候以色列有一家公司已经在宣传他的UIP技术,用得也很好。UIP早就成熟了,为什么到了 Skype才能够成立,很关键一点Skype有一套最低成本的,而且相对最高质量的一套互联网语音网络,这个网络用传统的方式到各个地方建立服务器,这个 服务器加上带宽,这个成本加起来,会把这个业务压垮。S这帮人原来做P2P文件传输,后来做Skype用了一套可管理P2P的方式,去构建了这样一个网 络,使这个网络基本实现了全球范围之内点对点之间很好的语音流通讯,我们如果用Skype这样的观点来看,我相信Skype一定是云计算的一种,只不过 Skype并没有提供给第三方,只不过把这个应用提供出来。

  我之所以那么称赞或者解释Skype,其实点击科技也在做了一个类似的事情,就是我们做了一个叫(英语)的系统,我们目标是做一个基于可管理 P2P技术一个应用层虚拟网络,因为应用层虚拟网络我讲了几个层面的应用,一个层面就是我们是实现了一个虚拟IP的概念,虚拟IP就是用一个GIB的一个 号,来代替IP,现在互联网拿了本地IP是没有用的,因为IP是都是动态的,把现在用的IP告诉你,这个没有意义,除非你在同一个网上。我们现在能做到在 虚拟IP这一层我们已经能够实现提供一套GIB,这个GIB在网上登陆之后,你知道我的GIB互联网任何两个点之间就可以连接,第一能够定位,第二个实现 通信通道,可以发送文字信号,可以传输文件,甚至可以传输语音流和视频流。怎么实现点对点通信,有很多的方法,有UDP等等。但是用了一个由综合的技术加 上现在有差不多500万台活跃的机器,就是在国内的网络上,最高在线是超过50万台,不同层面由个人PC到服务器,组成了这样的一个网络,最后实现联通, 点对点的联通基本上可以做到百分之百联通率,这是我们做的第一层。

  第二层虚拟的FTP层,我有一个文件上传,对方有地址,我们用P2P的方法提供了这么一层,这一层用P2P的方式提供全套的IPA,上面也都列 出来了我们可以实现文件组的传输,而这个文件组的文件量可以做到至少几十万个文件,上层应用有几个应用用到了,我们做了一个游戏,一个游戏就几万个文件, 一千个游戏要同时维护,几十万个文件要做支持。我们在传输的时候有一个增量更新的技术,这边一组文件已经有了老的版本,出现了一个新的版本,我要继续传 输,我们系统自动做文件的对比,这个对比不仅仅是对比哪些文件该更新,哪些文件无效更新。我们是一个(实道)的文件可以去对比,发现这个文件改了,但是只 有1M的更新量,这是增量更新的技术。然后第三层是用到前面的两层,我们是做到虚拟应用流的技术,什么叫应用流?有点像视频由下载播放转向BOD一样,我 把很多的应用原来也是下载安装,我们变成即点即用,我们把客户端的一个程序可以安装在云上面,然后你从客户端去启动,中间有一层虚拟操作系统的层次,通过 这个层次这个软件可以安装,而且最快的速度。我们利用虚拟应用流做开发的一个游戏盒子,本身是两兆多的大小,下载之后有8千多款游戏,里面包括有100款 是网游,10个G的游戏都一样。你看到哪个游戏想玩,你只要一点,然后加载传输,关键的时候两个G的应用,大概是加载200M左右,这个程序就可以进入 了,游戏就可以进入体验了。我们可以看到,在我们LovoNet其实也是具备云计算的一个特点,因为他是已经由50万到500万组成的一个对外的,最底层 可以说是云传输,下面会发展成云存储,它能够给上层的应用提供相应的服务。实际上很多人在关心点击在做什么,我们这几年最重要的心思就是在建立以下的云传 输的平台,至于现在外面所开放出来一些应用,比如说LavaNet的应用,还有游戏盒子的应用,再跟很多合作伙伴开发网吧游戏三维更新系统,就直接用到我 们的LavaNet,来进行游戏的更新,这些都是平台上面的应用,也可以说是它的一个成功案例。

  最后跟大家分享另外一个话题,这个话题也看云计算的未来,这是在6月2日的时候,也是在微博上面写了这么一句话,因为微博只能140个字,把原 来写了东西都删掉了,最后就是100多个字。媒体要我写一篇稿子,要我预测一下12年以后IT会有什么样的趋势?要预测IT,预测本身就不靠谱,预测IT 更不靠谱,IT变化太快。所有的IT极少有凭空而来的,大多数情况看到现在的技术就可以看到苗头,这些技术越来越成熟,这些技术越来越融合,这些技术由实 验室走向大众,于是IT的革命就产生了。其实我们看到云计算是现在大家很关注的,其实云计算构造了一种高性能计算系统的模式,这种模式只要一成功,计算能 力会以更快的增长。除了计算能力在成长以外,我们还可以看到现在还有一系列的其他东西,比如说网络,网络除了光纤,有几个T的速度,有几个运营商提供。其 实网络除了刚才说了因特网的主干网以外,网络进一步的发展,会有包括像无线,像3G和4G,另外除了这种长距的网络以外,还有短距网,比如说蓝牙范围之类 的,现在大家用了甚至只有几厘米。除了网络以外,现在也是IT传播很多的,就是所谓的物联网,这可能是美帝国主义的一个政治产物,但实际是IT技术和IC 技术在不断的发展,甚至在传感和标签这个领域,现在的生物技术和纳米技术都有可能进入,我前几年看到美国人发明一个内裤,有几个生物感应器,这个感应标签 一上来之后,给一个士兵,一看内裤,然后就知道很多很多的特征。实际上这种传感技术、标签技术,包括四维技术,各种驱动的技术,现在一个小电动机都用纳米 的技术做,都看不见,能做出一个能转起来的泵,这个都可以相互融合。这个融合之后,只要有需要都可以装一个传感器,装一个芯片,让它自主或者被动,远的或 者近,能力强或者弱的,让它具备IT的能力,这个是完全可以想像。甚至传感器还可以植入到动物和人体里面,上次网上大家也看到所谓的第六感驱动,挂一个摄 象头,加上一个投影仪,加上一个后台软件的支持,这些可能都会有。还有一些所谓叫异恋感应,所有这些技术,网络技术,云计算的技术等技术都成熟以后,会出 现什么样的状况?很多年前有学者提过普适计算,现在计算还有一个计算机,以后计算无所不在,任何地方都可以有CPU,都可以做计算,现在做计算不用找一个 专门的计算机,而这个计算会跟空气一样无所不在。平时看不见,摸得着,但是你在生活、工作、娱乐过程中你无时无刻会感受到这个计算给你带来的一种便利,他 们起了一个很学术的名字叫普适计算。

  我想如果我们同样去参照云计算营销成功的案例,也许几年之后会有人正儿八经提出我们进入了一个空气计算的年代,人都活在空气之中,空气给我们提 供了足够的能量,看不见,摸不着,但是我们离不开它,这个也许会是一个云计算的未来。

  谢谢!

  主持人:谢谢王总给大家带来精彩的演讲!接下来我们有请杨洪涛跟大家分享搜狗输入法的云计算世界。

  杨洪涛:非常高兴今天有机会参加这个活动,跟大家有一个交流,我是来自搜狗公司的杨洪涛,一直在搜狗从事多面软件的研发工作。今天这个话题主要 是跟大家聊一下云计算,云计算确实是一个很热的概念,我立刻想到云里雾里,我主要从实际的角度来讲,就是在一个很互联网产品里面,是如何去利用这个技术, 然后达到产品为用户服务的一个最终效果提升。和输入法关系结合得比较紧密,因为从实际的层面来聊,会涉及到输入法,从传统输入法到现在的云输入法,里面的 差异是什么,云输入法带来哪些优势,云计算里面的方法和工具给输入法带来什么新的变化,或者未来的产品会有哪些新的计划,以及我们用了什么样的技术和方 法。

  首先我们来看PPT的标题,我们来看输入法的发展,大家都是经历过这个阶段,最早所见到的输入法,我叫古典输入法,那时候计算机还不普及,输入 法是一个专业人士手里的工具,学计算机是学打字,学输入法,我有这么一种概念,那时候水平高低强调是谁打字快,打字快蕴含的概念,一个输入法要求重码率 低。以王老师的五笔字形为代表一系列的输入方法,到现在各种各样的码,那个时期是在红火,最流行的时期,最主要是学习成本太高,几乎要从娃娃抓起,小孩子 学很多年才能学会。再过几年,就进入了传统的输入法,就是拼音开始有了,无论从微软自己系统里面开始有了这种单字的输入法,学汉字都是从学拼音开始的,都 是一种习惯的方式,它的问题在哪里?输入法的字库是最核心的一个构成,字库来自于专业语调,就是几万篇的人民日报的文章,拿这个文章里面新闻的句子,或者 一些描述来去分成词条,然后经过统计进入到输入法里面构成字库,分词做词名统计,输入词的时候按输入展现的频率高低。再就是随着互联网应用更多的流行,无 论是博客的领域,在网上创造信息的机会也变多的,传播的信息也变了,互联网的语调有很高的要求,我敲一个文字的时候,出来往往的输入法不是我想要的东西, 因为我的词语有很多的特点,比如说互联网的一些特点是口语化,有一些热点的概念,像搜狗最早做输入法曾经宣传过一个词,任何一个输入敲不出这个词,这是互 联网的特点。还有各种各样的互联网的领域,实在太庞杂了。

  搜狗其实05年开始发现了这么一个问题,这种输入需求没有被很好去满足,后来才有这个产品的诞生。再往后发展就是云时代,搜狗一个角度叫云输入 法的原因,主要面临互联网的语调有这么一个特点,实际语调非常庞大,需要做的运算量非常大,以至于你不用云计算的方式和方法是不可能实现,或者实现的效率 是非常低的,至于有多低,我会有一些实际的数据可以看到。

  我们先看一个感性认识,就是说传统的输入法,或者叫搜狗输入法以前传统的版本,在座都有碰到过或者听说过搜狗输入法,以前的版本或者跟眼下我们 在宣传,在往深去挖掘,去做云输入法技术一些感性的差距,比如说语调大小,就是我们用的原始用来做词汇,语汇的分析,传统有40GB,非常小,经过精选来 自于互联网的文章。但是在云的这个阶段,我们在TB的单位,1TB经过过滤和筛选之后的结果。还有词库,我们用TC版本,是安装在电脑上,数据不可能太 大,不到40万词的规模,但是云的阶段数据是存储在服务器,基本上不受限制,可以到2千万,甚至可以更高,上亿的数据量。另外一方面是指在计算方面,这个 词库非常大,但是说互联网的一个特点,更新特别快,每天都有新的概念,新的语汇,新的关心的热点冒出来,然后既然是针对互联网这种需求,必须满足信息的挖 掘,让用户去用到。传统的时候,因为数据量非常大,更新周期是比较长的,利用了云计算技术之后,把可以把更新做到实时或者至少是半实时。计算模式可以变成 串行变成并行,里面的算法过去是二元模型,有了计算能力才能够实现更复杂的三元模型,或者长距的模型。这种二元模型实际比较适合大型PC的计算能力,你觉 得你敲得还比较流畅,三元模型下来觉得不够了,大家到这个电脑上去用,觉得不能接受,这个电脑要很久之后才能给你结果。

  总结前面的对比,实际是在传统输入法的劣势,语调非常小,我们不得不在这个小的基础做非常复杂的工作,比较精华的数据,来自用户的语调,来自新 闻的语调等等,后台的模式也是单机的,非常慢,即便我们把程序的性能调节得非常好的情况下,也是非常慢,为了生成这个词库会跑一天的时间,其他一些词库分 类算法,或者其他语调的挖掘,有些程序一放一跑要一周的时间,一个程序还不包含写代码和改代码的时间,写好的代码跑要一周的时间,要下周才能发挥,然后一 个月两个月出两个事故,这个工作就做不到了,这是很严重的问题,词库非常小,只能收入一些很常用的词汇。更新模式我们会去尽可能挖掘网上的新词,语调多元 模型每个季度才能更新一次,更新是非常慢的。

  我们现在说云输入到底带来哪些信息,基础的一个知识所谓N元模型,二元和三元大概指的是什么样的计算在里面,首先语调我们整理出来之后,这个语 调整理是一个复杂的过程,简单说拿到了一大段的句子,各种各样来源的句子,然后对这个句子进行分词,比如把“今天天气真不错”分开,分成今天 天气 真不错,然后语调出来的所有词的频率,比如说在这个句子里今天出来一次,那个句子又出来一次,加起来得到了一个频率表,最终用户去使用这个输入法的过程, 敲拼音输入法,然后经历的过程是计算机把音节按照汉语拼音的规范,把它切开,比如说(我很),H和E不可能切分开,再找到每个音下面所有对应的字,因为一 个字有多音字,实际上展开是一个网络,然后我们再去计算字与字之间,或者单个字的频率,这叫N元模型。一元模型只看一个词,二元我要看到两个词,三元和四 元是更长的,考虑是整个句子的分析。一元的时候算法是拿“我”这个字在语调里出现的概率,乘以“很”的概念,再乘以“反感”的概念,结果哪个大就用那个。 我们知道传统输入法历史上成为有很多输入法都是这样做的,为什么导致用输入法用习惯了,大家不敲长句,一个情况不超过三四个字,虽然这个句子原本长,先人 工切成几个词,现在主流的输入法或者市场上其他的产品基本上在使用这个方法,就是考虑了两个词前后搭配关系,我们考虑“我”和“很”搭配之间的出现几率, 所以最后计算的时候就舍掉了。

  我们看一下二元模型,比一元模型更有整体性,原来考虑前后两个词的关系,计算复杂程度高,所需要存储空间比一元要大很多,一元只需要存储一个 词,二元模型比如40万的表,你需要的信息可能是40×40的矩阵,有些词可能不算搭配,我们可以把它压缩成一个相对小的矩阵,根据我们的实践经验大概在 400万二元关系,应该是一个比较实用,对效果有提升,然后不会太影响效率的量级,我们去装搜狗输入法大概是16M原装包。

  上面我介绍的是背景,那么云输入法的优势,会带来三个优势,第一个方面是数据上,第二个方面是更新上,第三个方面是计算上。

  首先是数据上,我们能够使用更大的语调,传统的时候只有40GB的语调,现在能在1TB的规模上,搜狗在07年实现了100亿网页的抓取,实际 上那个时候计算能力实现不了所有网页都拿到数据里面做一个分析,因为数据实际太大了,分析起来太慢,现在运行经验的提升可以来做这件事,更大的语调,里面 包含着更多的来源,因为互联网信息时代太复杂了,有官方相对权威的新闻,来自门户网,但是有大量来自网友产生的,还有还有无效的数据,比如说广告营销,或 者说一些SO所产生的一些垃圾信息,前一段时间我看过一篇文章,为了达到营销目的在博客上盗一些没见过的词,很生僻,你可能好奇,去点,然后发现是广告, 这个对语调的分析产生很大的干扰。中国古汉语是太发达了,语调非常大,大家的输入习惯又不一样,所以传统来说可能覆盖不了,传统输入法敲一个诗或者一个句 子的时候你不可能出得来。怎么解决这么大语调的分析问题,这个分析有很多的方面,刚才说到词频处理的一个核心问题,还有很多清洗过滤的数据,这是一个很复 杂的概念。简单来说,用了相对比较大的集群处理方式,我写了是大概是50个节点。从绝对数值上来看不是很大,跟业界相对领先的公司来讲,但是对输入法来说 已经有一个质的提升,里面用到的综合式存储,原始语调信息以及中间产生大量的辅助数据,然后用到了并行存储的平台,Google提出一个概念,实在是对业 界帮助非常大的一个工具,我们相应把一些语调分析的算法,或者说训练算法能够扩展等并行化的,过去可能用国际羽传统的运行计算方法,现在转移到新的平台上 来,因为新的平台发展也比较快,一直在更新,能够满足未来发展的需求,传统的东西相对慢下去了。实现了语调扩大了几十倍,也能够做快速的处理,甚至比以前 更快一些。

  这是做并行处理的例子,比如说语调的切分,就是1TB原始一句话的例子,是怎么把它切成词频统计,这是一个比较简单的问题。把一个句子切成一个 一个的词,很多平台因为用了数据,原来也用了并行计算,原来传统的计算要把所有的语调搞来搞去,传输的是非常慢,大部分的工作都在拷贝一个文件,但是有的 平台能帮我来解决这个问题。

  第二是N元对,把前后相同的N元对统一在一起,最后(Returer)来统计,现在的阶段就是三元,来统计它的次数,实际上有三次方的数据规 模。辞典优化,因为数据比较大,有一个压缩和化简的过程,目的是把长的N元对之间,本来不该长的东西给干掉,比如说“漫天大雪纷飞”,搭配起来概率是非常 高的,漫天大雪可能是一种二元关系,不应该是三元关系。最后通过计算,或者说数据上的处理,形成了一个云输入法所用到的非常大的一个词库,能够到两三万的 规模,里面涉及到各个方面的东西,这些东西都是传统输入法,或者过去单机PC版不可能收录的东西。包括一些专业词汇,医学上和化学上的东西,里面比较重要 就是网络热词,跟一些热点事件相关联的,比如说“哥只是传说”,这些都能进到这些词库里面去,你去上面做输入的时候,你关心的东西或者你每天都在聊的东西 能一下子出来的,还包括一些很奇怪的国外人名,或者一些地名,或者中国的一些传统表达方式,一些诗词歌赋,这是云计算给数据方面带来的好处。

  第二个方面是数据更新方面,因为互联网的特点是快速在更新,每天都有新的东西冒出来,我们叫实时对很多东西做分析,因为搜狗也做搜索引擎产品, 能抓取大量网页上出现的信息,然后参与搜狗输入法的用户体验计划大概有几百万的规模,他们每天敲什么词贡献给我们。然后来自搜索引擎每天在框里查什么,热 点的东西都在里面出现,那个收集是非常重要的。

  三个分析新的信息来源,然后在上面去做很多的统计分析,特别是时间分析,新的概念和新的词汇到底是什么时间出现的。你每天查什么,都会对这个输 入法产生贡献。这是更新的好处,更新的好处其实跟计算是结合在一起的,为什么更新那么快?实际上也是因为用了云计算方法进入之后,这种计算能够更快,所以 后台数据能够更新更快。

  第三个优势是计算,这个计算指的是在用户输入过程中需要前台的计算,冲击分析是后台的计算,你只要把你敲拼音提供到搜狗来的,再把结果给你,有 了云计算服务器之后,PC上是提供二元的,在服务器可以使用三元,甚至更好的语言来达到更好的效果。我们从做输入法产品第一个思路是提高大家敲字的工作效 率,过去敲一篇文章100个字,你要摁很多字键,你现在500字敲100字,现在提高到敲得更少,这是工作效率的提高,然后时间成本的节约,提高了社会效 益。搜狗现在有1个多亿用户,每个用户每天节约5分钟的时间,时间就是金钱,结果就是一个巨大的效益,搜狗输入法让摁的键字数越少。三元模型的一个例子就 是缓解工作压力,在三元情况下我们能够给出换届工作压力的关系,他的计算复杂度更高,要出现三个词的关联,所以功能增大。

  这个Trigger模型也比较简单,现在即便用的运行计算的方法之后,也只能做到3,做到4是没有希望的,所以用这个来做弥补,弥补就是远距离 两个词搭配的关系,比如说“决策部门为弥合收入差距的鸿沟集思广益时”,有很多固定的搭配,比如说“弥合鸿沟”,这种搭配实际在语调中统计出来的。三元的 时候是把三个词之间的搭配关系形成一个概率,再把概率算乘法,最后形成加权。三个关系搭配是非常稀疏的矩阵,因为大时候是往往不能搭配的。

本文地址:http://dgaty.xhstdz.com/quote/60308.html    物流园资讯网 http://dgaty.xhstdz.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关最新动态
推荐最新动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号