回顾十年运维路 深思只为更好的前行

浏览:1437 ℃
字体:
发布时间:2019-08-01 18:38:59
来源:

赵建春表示,04年加入腾讯至今已是十年的运维老兵,和团队随着时间的推移共同成长。回顾这十年,如有一次重来的机会,什么才是真正最重要的?什么是团队优先做好的一件事情?进行思考,再去深思,这样做只为支撑我们更好的前行。

关于赵建春及所处的团队

赵建春,目前负责社交网络负责大数据和运维工作。04年加入腾讯,加入之后做贺卡开发,05年加入QQ空间开发团队,负责留言版模块。06年底开始随着公司组织架构变化,开始接触运维工作,到现在有10年时间。

运维团队,主要是负责以QQ延伸出来的各种社群的运维和维护,包括QQ空间、QQ音乐、QQ会员、QQ秀等一系列的QQ产品。真实员工89个人,加起来外包同事,维护了10万家服务器,维护的能力和谷歌比起来还是有差距,但是对很多传统企业来讲,可算佼佼者。

团队经历,如红米空间首发,红米QQ空间90秒卖出10万台设备,获得1亿点赞。天津大爆炸事件,把天津2亿多活跃用户,从天津快速调到深圳以及上海,在中国互联网史算得上是一次非常大规模的调动。春节红包准备工作,今年比去年的红包访问量增加了10倍以上,快速的扩充了5000台设备,前段统一机构部署,***访问量达到477万次每秒。

赵建春表示,作为运维团队来讲,最最重要的事是先保证自己做的系统可靠、不会轻易出错,不要让自己变成一个救火队员。可靠之后,就要用更多时间去解决效率问题,让工作变得更加高效,***是追求更高的目标。

对我们高效、可靠帮助***的是什么

对团队工作帮助***的是什么?如上图,资源管理是要把写出来的程序和代码,进行一个清晰划分和分类,对每个资源有不同形状,进行搭建。容错方案是在维护海量服务时,运维过程中出现故障是确保不能影响项目服务,服务器要做到及时处理。 统一架构CMDBA是把一个业务模块上所有依赖资源全部登记进去。同时如果做快速决策和调度,还需要有效的监控。DLP是内部定义的一个非常关键的监控,这个点发生后,可以知道哪里出现故障。入口监控是告知出现故障的根源在哪。容错方案的L5是用来解决容错、灰度,路由等。

世界上管理服务器最多的系统

L5系统

赵建春表示,运营管理系统管理了上亿服务器,脉络非常清晰,根本不会出现混乱。L5系统(上图)也类似于DNS系统,有一排能提供的服务模块,从而解决的单点问题。

L5-主机/接口级的容错原理

L5如何做容错?如上图,L5有由L5、DNS和L5、agent两部分构成。CGI通过给模块提ID,根据模块下设备的成功率和延迟情况,通过IP+PROT给CGI一个反馈,访问之后,通过成功率和延迟情况,把数据上报给了L5agent,然后做统计数据。当发现失败率特别低的时踢掉。当发现成功率和失败率有一定下降,会把访问权重降低,从而达到容错和负载均衡的作用。可以注册一个模块,加多台设备,形成容错效果。如发现一台机器失败率很高,就把它踢掉。它成功率恢复过来,还可以再加回来。

L5的灰度、容错、路由、负载均衡能力

新加一台服务器设计它的权重为1,假如之前的是100,可以逐渐上线。还可以给它一个得分,得分下降的时候,快速把它踢掉。L5具有灰度、容错、路由、负载均衡的能力。

L5对运维团队有哪些帮助? 减少了80~90%的日常故障、不再需要频繁的变更ip+port(也是故障源)、同过名字便利的服务上下线、通过权重灰度上线、模块访问关系可帮助定位根源故障、接口的延迟和失败率可用来监控、集容错、负载均衡、路由、灰度、监控能力于一身

统一框架和架构

赵建春表示,团队里有上千号开发同事,每年会有大量毕业生加入,也会有社交同事。进来以后,都希望为平台做更更多的代码贡献或展现自己特有的技术实力也或提高自己。

统一框架

那问题来了,在开发过程中,如上图,有管道、消息队列、信息文件锁、记录锁、文件影射内存、还有迭代服务器Select poll Io等,这些是用各种各样技术组合生产出来的代码,交给团队维护,数以万计不同性格的服务器,要掌握得非常好,能了解它的工作机制和原理,更好的维护它基本上是不可能的事情。

统一框架

那就如上图,把网络通讯部分列成一个标准框架,提高它的通讯效率,统一维护。

统一框架:接入和逻辑

业务逻辑部分用SO动态库方式编写与框架分离部署,类似WEB服务器上的CGI。接入层用QZHTTP,逻辑层是SPP和SF的框架。

统一框架:存储

作为社区类服务,虽然用户的热点并不是很集中,但数据量、访问量还是很大。大量用CKV存储,同时针对访问量非常大的问题,如说用户没有开通空间,游戏用户,会员等标记,之后均做一个定位,形成一个高访问量的模块即可。

统一框架:标准架构视图,管理管理节点

如上图,是一个架构体系,接入层是TGW,流量从它进、从它出。对于中间层,利用L5进行调度。在存储层,因为每一个存储模块要分耗段,故加入Access,从上到下把技术架构进行了统一规范,同时在组织上也通过接入逻辑运维层,进行标准化的维护。

统一框架对运维有什么帮助? 网络框架和业务逻辑SO分离管理、运维人员学习成本大大降低、框架稳定性极大提高、可跨业务统一维护、运维效率提升***可达10倍。

资源打包管理

所有程序统一打包

如上图,资源打包管理是对开发出的程序包进行标准打包操作,一个程序开发出来有不同特征,有需要加银行参数,有需要依赖目录,还有需要前面准备工作和后续善后工作,把它全部放在一个类似于包里面,装进一个盒子里。之后提供标准的操作接口,如安装、卸载、启动、停止操作等这些操作让它们变成有关联的。

资源打包管理对运维有什么帮助?部署规范统一,再也不担心找不到、标准化了操作界面,极易学习掌握、支持前后置脚本做准备和善、进程级运转的所有资源的完整镜像。

资源登记——CMDB虚拟镜像

资源登记到二级CMDB形成服务的虚拟镜像,除了传统基础配置信息,把一个模块依赖的资源,全部记录进2级CMDB,形成一个模块的虚拟镜像。

CMDB+资源=虚拟镜像

CMDB虚拟镜像对运维有什么帮助?一个模块运转的所有资源的“完整镜像”、记录了模块运转所依赖的所有资源、不再需要文档说明。

决策调度——织云自动化部署平台

织云自动部署流程23步

赵建春表示,如上图,在团队内部有织云自动化部署平台,从申请设备获取资源、发布部署、检测,进行测试,上线。在每个环节还有些细节步骤,如申请设备的时屏蔽告警事件,如发布时同步传输文件、如发布后检测程序的包进程是否启动,启动之后进行业务测试。

腾讯织云自动化运维体系

如上图,是织云内部自动化部署的平台。相当于把这个进程开发出来以后,依赖的资源全部打包放在盒子里,把盒子里的东西放资源仓库中,有一些模块全部登记在CMDB。

织云全自动扩缩容

如果要部署一个模块A或进行扩容,可是人工触发或自动系统触发,控制人工系统进行操作,把模块边上三个资源,由资源仓储部署在模块1上,通过L5系统进行一个注册,这个模块就可自动上线。之后会把一个模块登记回来,对它进行自动化操作,每一个方块是一个步骤,这个步骤执行过去之后是绿色的,执行失败是红色,没有执行是灰色。执行成功就可以看到,可以做自动化的扩容,可以做日常演习,还可以回收等工作。

运维规范的推进历程

赵建春表示,上图是运维规范的推进历程,看起来还是比较自然而然的过来。但是实际上这个事并没有这么容易做。

运维最难解决的问题是什么?

赵建春表示,运维***的困难是历史问题。每个团队都会遇到自己的历史问题,解决一个,就又会出现一个。 虽然运维团队不能重来一次,但现在有很多创业团队,有很多新项目,能不能在最初的时候,就有运维和开发共同参与制订未来运维工作有预见性的规范规则,之后由开发把它根基打好。如果开发对用户的帮助非常大,那一定需要运维和开发深度配合合作,才能打造高效运维基础,达到一个高效的效果。回顾运维这十年的路程,深思熟虑的思考,只为了在未来可以更好前行。

讲师简介:

赵春生,腾讯社交网络运营部助理总经理、技术运营通道会长、专家工程师。04年加入腾讯,先后从事过研发、运维、数据方面的建设和管理工作,在海量技术运营方面积累了丰富的实战经验。

更多信息来自:东方联盟网 vm888.com

闂傚倸鍊搁崐鎼佸磹閹间礁纾归柣鎴eГ閸ゅ嫰鏌涢锝嗙8闁逞屽厸閻掞妇鎹㈠┑瀣妞ゆ挾濯Σ鍗炩攽閻愬瓨缍戦柛姘儏宀e灝鈻庨幋婵愭闂佺鍕垫畷闁抽攱鍨堕妵鍕箳閸℃ぞ澹曠紓鍌欑椤︻垶顢氶鐘插灊濠电姵鑹鹃崘鈧銈嗘尵閸犳捇宕㈤幖浣光拺闁硅偐鍋涢崝妤呮煛閸涱喚顬奸柍顏呮尦濮婄粯鎷呴崨闈涚秺椤㈡牠宕卞☉妯碱唶闂佸綊妫跨粈渚€鎮¢垾鎰佺唵閻犺櫣灏ㄩ崝鐔兼煛閸☆厾鐣甸柡灞剧洴婵$兘濮€閳╁啰褰囬梻浣虹帛缁嬪繘宕曞畷鍥潟闁规崘顕х壕鍏肩箾閸℃ê淇柛鐐茬秺濮婃椽鏌呴悙鑼跺濠⒀屽櫍閺屾盯鎮㈤柨瀣淮濡炪們鍨哄Λ鍐€佸鈧幃鈺咁敃椤厼顥氶梺鑽ゅ枑閻熴儳鈧凹鍘剧划鍫ュ礃椤忓棛锛滈柣鐘叉穿鐏忔瑦鏅堕敂绛嬫闁绘劖褰冮弳锝夋煕閳哄绡€鐎规洏鍔戦、娑橆潩椤掑倸顕辨繝纰夌磿閸嬫垿宕愰弽顓炵闁绘劦鍓氶崣蹇涙煣韫囷絽浜炴い鈺傜叀閺屾洝绠涢弴鐐愭盯鏌¢埀顒佺鐎n偆鍘介梺鐟扮摠缁诲啫顔忓┑瀣厱闁圭儤鏌ㄩ。鑲╃磼缂佹ḿ娲寸€殿喖鐖奸獮瀣攽閹邦亞纾惧┑掳鍊楁慨鐑藉磻濞戞碍宕叉慨妞诲亾鐎殿噮鍋婇獮妯肩磼濡粯顏熼梻浣芥硶閸o箓骞忛敓锟�/QQ 1602007闂傚倸鍊搁崐鎼佸磹閹间礁纾归柣鎴eГ閸婂潡鏌ㄩ弮鍫熸殰闁稿鎸剧划顓炩槈濡娅ч梺娲诲幗閻熲晠寮婚悢鍛婄秶濡わ絽鍟宥夋⒑閹肩偛鈧牠宕濋弽顓炍﹂柛鏇ㄥ灠閸愨偓濡炪倖鍔﹀鈧紒顔肩埣濮婂搫煤鐠囨彃绠哄銈冨妼閻楁捇鐛径宀€鐭欐繛鍡樺劤閹垶绻濋姀锝嗙【闁挎洩绠撳畷銏犆洪鍛嫼闂佸憡绻傜€氼剟寮冲▎鎾寸厽婵°倐鍋撴俊顐g懇瀹曟洟顢曢敂瑙f嫽婵炶揪绲块幊鎾活敋濠婂懐纾奸悹鍥ㄥ絻閳ь剙鐏濋悾鐑藉箛閺夊灝绐涙繝鐢靛Т鐎氬嘲煤閹间焦鈷戦悹鍥b偓宕団偓濠氭煃瑜滈崜鐔奉嚕閵婏妇顩烽悗锝庡亞閸樿棄鈹戦埥鍡楃仴婵炲娲滈懞閬嶅锤濡や胶鍘遍棅顐㈡处閹歌锕㈡导瀛樼厪闁搞儜鍐句純濡ょ姷鍋涘ú顓€€侀弮鍫濆耿婵炲棙鍨甸獮鍡涙⒒閸屾瑧顦﹂柟纰卞亰閹本寰勭仦鎯у簥濠电娀娼уΛ娑㈠汲閿曞倹鐓欓柣鎴灻悘宥夋煕椤愵偂閭鐐寸墪鑿愭い鎺嗗亾闁诲浚浜弻锟犲幢濞嗗繋绮堕梺瀹狀潐閸ㄥ潡骞冨▎蹇e晠妞ゆ柨鍚嬮宥呪攽閻樻剚鍟忛柛鐘愁殜楠炴劙骞庨挊澶岀暫閻熸粍妫冮悰顔嘉熼崗鐓庣彴闂佽偐鈷堥崜娑㈠汲娴煎瓨鈷掑ù锝呮啞閸熺偞绻涚拠褏鐣电€规洖缍婇弻鍡楊吋閸涱垽绱遍梻浣告啞濞诧箓宕归柆宥嗗亗闁挎繂顦遍崣鎾绘煕閵夛絽濡介悘蹇庡嵆閹綊骞囬崜浣虹槇閻庢鍣崑濠傜暦婵傜ǹ唯闁挎棁顫夌€氳棄鈹戦悙瀛樺鞍闁糕晛鍟村畷鎴﹀箻鐎靛摜顔曟繛杈剧到閸熷潡宕ュΟ琛℃婵☆垱绮嶅Λ鍐ㄧ暦椤忓懏濯撮悷娆忓閻濇姊婚崒娆戭槮闁规祴鍓濈粭鐔肺旈崨顓犵崶濠殿喗枪缂堜即鍩€椤掆偓閹虫ê顕f繝姘ㄩ柨鏃€鍎抽獮鎰版⒒娴h鍋犻柛搴櫍瀵彃鈽夐姀鐘插殤闂佸搫鍟悧濠囨偂閸愵喗鐓熼柣鏃偳归ˉ瀣极閸儲鈷戦柛婵嗗鐎氭壆绱掓径搴綈濞e洤锕幃婊堟寠婢光斂鍔戦弻鏇熷緞濞戙垺顎嶉梺浼欒缂嶄線寮婚敐澶嬪亜闁告縿鍎抽悡浣糕攽閻橆喖鐏柨姘舵懚閻愮繝绻嗛柕鍫濇噺閸h櫣绱掗悩鍐叉诞婵﹦绮幏鍛村川闂堟稒璐¢柟骞垮灲楠炴帒螖閳ь剟鎮¢弴銏$厱妞ゆ劧绲挎俊鍥煛鐎n偅顥堥柡宀嬬節瀹曟﹢濡搁妷銏犱壕鐟滅増甯掔粣妤呮煙閹殿喖顣奸柛瀣ㄥ妽閵囧嫰寮介悽闈涘煂闂佸搫顑囬崰鏍箖濡も偓椤繈鎮欓鈧锟�
>更多相关文章
24小时热门资讯
24小时回复排行
闂傚倸鍊搁崐鎼佸磹瀹勬噴褰掑炊椤掑鏅悷婊冪箻閸┾偓妞ゆ帊鑳堕埢鎾绘煛閸涱喚鐭岀紒顕呭弮閹垽鎳栭悜妯活棃闁糕斁鍋撳銈嗗笒閸犳岸寮虫导瀛樷拺閻犲洦褰冮銏ゆ煕閹邦剦鐓兼鐐茬箻閺佹捇鏁撻敓锟� 闂傚倸鍊搁崐鎼佸磹閹间礁纾瑰瀣捣閻棗霉閿濆牊顏犵紒鈧繝鍌楁斀闁绘ɑ褰冮埀顒€顕槐鎾愁潩鏉堛劌鏋戦梺纭呮彧缁犳垶顢婇梻浣筋潐婢瑰棙鏅跺Δ鍛9闁绘垼濮ら悡鐔兼煏韫囧鐏柡鍡忔櫊閺岋綁鏁愰崨顖氱厽濠殿喖锕ュ钘壩涢崘銊㈡婵ǹ浜弶浠嬫⒒娴e懙褰掓晝閵夈儍娲冀椤掑倷缃曞┑鐘殿暯濡插懘宕归悽绋跨;闁归偊鍎靛☉銏╂晬婵炴垶鐗旂花濠氭⒑鐟欏嫬绀冩繛澶嬬⊕缁傛帡鏁冮崒娑氬幈闂佹寧绻傞幊蹇涘箟閸濄儳纾奸弶鍫涘妼濞搭喗銇勯姀锛勬噰闁瑰磭鍋ゆ俊鐑藉Ψ瑜濈槐锕傛⒒閸屾瑧顦﹂柟纰卞亰閹本寰勫畝鈧粈濠傘€掑锝呬壕閻庤娲樺浠嬪极瀹ュ绀嬮柕濞垮劙婢规洟姊洪幐搴g畵濡ょ姴鎲$粋宥呪堪閸曗晙绨婚棅顐㈡储閸庤尙鈧熬鎷�
闂傚倸鍊搁崐鎼佸磹妞嬪海鐭嗗〒姘e亾妤犵偛顦甸崹楣冨箛娴e湱绋佸┑鐘垫暩婵敻鎳濋崜褍顥氬┑鐘崇閻撶喖鏌¢崘銊モ偓鍝ユ暜閸撲胶纾奸柣妯虹-婢ь亪鏌嶇憴鍕伌闁诡喒鏅犻獮鎾诲箳閹炬惌鍞插┑锛勫亼閸婃牕煤濠靛洢浠堥柟闂寸缁犵偤鏌曟繛鍨姶婵炵鍔戦弻娑㈠焺閸愮偓鐣跺銈庡亽娴滎亜顫忓ú顏勪紶闁靛鍎洪埀顒佹崌閺岀喖宕欓妶鍡楊伓 闂傚倸鍊搁崐宄懊归崶顒夋晪鐟滃繘鍩€椤掍胶鈻撻柡鍛Т閻e嘲螣閼姐倗鐦堝┑顔斤供閸樻悂骞愰崘顔解拺闁告稑锕ユ径鍕煕韫囨梻銆掗柟骞垮灲瀹曞崬鈻庨幇顒佺€鹃梻浣告惈閸婂綊顢栧▎鎾冲惞闁哄洢鍨洪悡鐔兼煏韫囨洖孝妞ゃ儱绻橀弻鈩冩媴閸濄儛锝夋煙娓氬灝濡兼い顐g矒瀹曞崬螖閳ь剟锝為锔解拺闁告稑顭€閹寸姵鏆滄俊銈呭暞瀹曞弶绻涢幋娆忕仼缂佺媴缍侀弻锝夊箛椤撶喓绋囬梻鍌氼槸缁夊墎妲愰幘瀵哥懝闁搞儜鍕邯缂傚倷绀侀ˇ閬嶅箠閹炬椿鏁嬮柨婵嗘缁♀偓濠殿喗锕╅崢鍏肩濠婂牊鈷戠紒瀣硶缁犳娊鏌涘Ο鐘插暊閺嬫棃鐓崶銊р姇闁抽攱鍨块弻娑樷攽閸℃浠奸梺鍝勬閻熲晠寮诲☉娆戠瘈闁稿本绋栫涵鈧紓鍌欑贰閸犳牠鎮ч幘璇叉瀬闁瑰墽绮弲鎼佹煥閻曞倹瀚�
资讯 | QQ | 安全 | 编程 | 数据库 | 系统 | 网络 | 考试 | 站长 | 关于东联 | 安全雇佣 | 搞笑视频大全 | 微信学院 | 视频课程 |
关于我们 | 联系我们 | 广告服务 | 免责申明 | 作品发布 | 网站地图 | 官方微博 | 技术培训
Copyright © 2007 - 2025 Vm888.Com. All Rights Reserved
粤公网安备 44060402001498号 粤ICP备19097316号 请遵循相关法律法规
');})();