革命Hadoop,Spark搅热云计算大数据市场
据相关数据显示,2013年上半年中国手机网民规模已经突破5亿大关,预计14年第一季度,国内手机网民规模将超PC端,手机用户超过10亿,3G用户持续增长,以及4G的强势劲头,都催生移动大数据的爆发。大量新数据无时无刻不在涌现,移动互联网正影响着人类生活的方方面面。
这将是一个前所未有的时代。所有的公司和机构都已经或者正在成为移动互联网组织。所有的公司和机构也终将是云计算大数据组织。移动互联网及云计算大数据的浪潮正在并将最终彻底的变革所有的公司和机构的架构模式、生产模式、服务模式以及管理模式。
Spark—新一代全能大数据计算平台崛起
随着大数据相关技术和产业的逐渐成熟,单个组织内往往需要同时进行多种类型的大数据分析作业:传统Hadoop MapReduce最为擅长的是离线海量数据的统计分析,由于Hadoop本身的特性,导致使用Hadoop处理大数据的结果的获取往往是要延迟在几分钟甚至是几个小时,这在很多场景下都是不可接受的。更为重要的是在Spark出现前,要在一个组织内同时完成各种机器学习算法为代表的迭代型计算、流式计算、社交网络中常用的图计算、SQL关系查询、交互式即席查询等数种大数据分析任务,就不得不与多套独立的系统打交道,一方面引入了不容小觑的运维复杂性,另一方面还免不了要在多个系统间频繁进行代价高昂的数据转储。
Spark是基于内存,是云计算领域的继Hadoop之后的下一代的最热门的通用的并行计算框架开源项目,尤其出色的支持Interactive Query、流计算、图计算等。
Spark在机器学习方面有着无与伦比的优势,特别适合需要多次迭代计算的算法。同时Spark的拥有非常出色的容错和调度机制,确保系统的稳定运行,Spark目前的发展理念是通过一个计算框架集合SQL、Machine Learning、Graph Computing、Streaming Computing等多种功能于一个项目中,具有非常好的易用性。
Spark无可比拟的优势,占据云计算大数据领域霸主地位
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。Spark当下已成为Apache基金会的顶级开源项目,拥有着庞大的社区支持(活跃开发者人数已超过Hadoop MapReduce),技术也逐渐走向成熟。
作为下一代云计算及大数据的核心技术,Spark是可以革命Hadoop的目前唯一替代者,能够做Hadoop做的一切事情,同时速度比Hadoop快了100倍以上。甚至在Hadoop最擅长的离线数据统计分析领域,Spark比Hadoop也至少快了一个几何级数;Spark另外一个无可取代的优势是:“One Stack to rule them all”,Spark采用一个统一的技术堆栈解决了云计算大数据包括如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题,具有完善的生态系统;这直接奠定了其一统云计算大数据领域的霸主地位;
Spark应用现状及未来发展
目前SPARK已经构建了自己的整个大数据处理生态系统,如流处理、图技术、机器学习、NoSQL查询等方面都有自己的技术,并且是Apache顶级Project,可以预计的是2014年下半年到2015年在社区和商业应用上会有爆发式的增长。
国外一些大型互联网公司已经部署了Spark。甚至连Hadoop的早期主要贡献者Yahoo现在也在多个项目中部署使用Spark;国内的淘宝、优酷土豆、网易、Baidu、腾讯等已经使用Spark技术用于自己的商业生产系统中,国内外的应用开始越来越广泛。
前段时间,mahout宣布了一个重大的消息,mahout社区表示从现在起,他们将不再接受任何以MapReduce形式实现的算法,但是他们仍然将维护那些常用算法的MapReduce实现。另一方面,mahout宣布新的算法将基于Spark实现,他们相信Spark更丰富的编程模型及更优秀的性能将对mahout有着至关重要的作用。另一方面,Cloudera的机器学习框架oryx的执行引擎也会替换成Spark,之前oryx也是使用mapreduce。种种迹象表明,Spark已经开始各种屠杀了,非常有希望成为新一代分布式机器学习事实上的标准。让我们拭目以待。Spark正在逐渐走向成熟,并在这个领域扮演更加重要的角色。
Spark发展迅速,人才培养将成为关注热点
Spark技术的快速发展及应用普及,也带来了另外一个倍受企业关注的问题,即Spark人才的培养。由于目前Spark技术在企业的应用,仍然属于一个起步的阶段,在专业人才上极度匮乏。目前国内专注在Spark人才培养的机构和课程非常罕见。
据Spark亚太研究院院长及首席专家王家林介绍,Spark亚太研究院致力于Spark技术的研究及推广,在帮助企业规划、部署、开发、培训和使用Spark为核心,同时提供Spark源码研究和应用技术训练。
在推动国内Spark人才培养上,Spark研究院在完成了对Spark源码的彻底研究的同时不断在实际环境中使用Spark的各种特性的基础之上,推出了国内首个Spark训练体系:
《18小时内掌握Spark》、《精通Spark:Spark内核剖析、源码解读、性能优化和商业案例实战》、《Spark企业级开发最佳实践》、《Spark 1.0.0企业级开发动手》、《Spark架构案例鉴赏》、《精通Spark的开发语言:Scala最佳实践》,帮助企业,从入门到精通到商业实战,完成Spark人才的快速培养。了解Spark最新课程(www.sparkinchina.com/)。
- 01-092023年的四大网络风险以及如何应对
- 01-09操作系统/虚拟化安全知识域:攻击者模型
- 01-09操作系统/虚拟化安全知识域:操作系统及其设计在安全中的作用
- 01-092022年全球勒索赎金TOP 10
- 03-06俄乌冲突快讯:乌克兰网站被攻击数量超十倍
- 02-23开放式银行创新:开发人员与网络犯罪分子之间的竞赛
- 02-23数据泄露后信息会怎样?
- 02-23四个首创 冬奥网络安全“黑科技”面面观
- 01-11全球最受赞誉公司揭晓:苹果连续九年第一
- 12-09罗伯特·莫里斯:让黑客真正变黑
- 12-09谁闯入了中国网络?揭秘美国绝密黑客小组TA
- 12-09警示:iOS6 惊现“闪退”BUG
- 11-18LG新能源宣布与Bear Robotics达成合作,成为
- 11-18机构:三季度全球个人智能音频设备市场强势
- 11-18闲鱼:注册用户过6亿 AI技术已应用于闲置交
- 11-18美柚、宝宝树回应“涉黄短信骚扰”:未发现
- 11-01京东七鲜与前置仓完成融合