「脉脉」基础架构迁移实战:拯救大兵瑞恩

发表于 讨论求助 2021-02-22 16:07:53

写在前面


彼时,脉脉 CEO 林凡一篇《脉脉失联的十五个小时》引发了业内舆论的普遍关注。


今天,脉脉已全部迁移至 UCloud 云计算北京 BGP 机房。


这场由传统 IDC 向混合云转型的精彩迁移实战,让我们看到睿智而挑剔的新一代运维人对云计算有了更为深刻的认知;


亦引发了我们对「拯救大兵瑞恩」中,「尊重每一个生命」理念的全新思考。


回顾:脉脉失联的十五个小时


7 月 28 日凌晨 ,北京。

03:04,脉脉的服务器网络传输遭到严重破坏,整个机群连不上网络,所有报警措施都失效(包括短信);

07:30,脉脉热心用户短信咨询失联问题;

.....默默等待......

12:00,无法等待,紧急联系机房,制定搬迁方案,提出机器下架申请,但考虑到搬迁也得耗费十几个小时,综合考量后把搬迁 Deadline 定在了18:00;

......默默等待......

18:00,协商一致,完成网络恢复。


此时,脉脉失联已经整整 15 个小时。


同时,因脉脉基础架构的整个机群完全连不上网,所有常规的报警措施(如消息推送和短信报警)都失效了,导致其会员无法收到此次故障的有效通知。无数的用户都在微信、微博、知乎上反馈脉脉无法登录了。


一位一米鲜的脉脉用户解先生说:「早上一起床刷新不了,退出重新登录,还不行卸载重新安装,还不行,微信问朋友,后来又问脉脉工作人员。一天整个人都不好了,就感觉身体一下被掏空。」


失联原因:脉脉原IDC服务商受联通大整顿影响


脉脉被断网事件源起于部分IDC厂商的不规范运营。


「不少公司,以 IDC 业务的名义从运营商申请到低价的骨干网带宽,但其中仅有一部分带宽自用,而另一部分则分批出售给一些第三方宽带企业。」这种不规范接入的现象,被称为「流量穿透」。据知情人士介绍,这种宽带价差生意有一个非常大的产业链,有资源的中间人年利润超过千万。


2016 年 7 月,中国联通正式发布了《规范互联网接入及大带宽管理的通知》,北京联通按照这一规定整顿旗下 40 多个 IDC 机房中的不规范接入情况,大批不合规接入均被断网,脉脉的原 IDC 服务商也因此受到影响。


除了脉脉之外,还有一大批互联网公司因此受到波及,如著名的 A 站——自 8 月 4 日至 6 日,整整失联了 48 个小时。


脉脉运维负责人兔子:论运维人的基本素养


兔子,真名黄华平,脉脉现任运维经理。毕业于清华大学,先后在搜狐、水木、聚美担任过重要的技术角色。受同样毕业于清华大学、原搜狗技术总监、脉脉 CEO 林凡师兄的邀请,加入脉脉,以一人之力,撑起了这家发展迅猛的独角兽公司的运维工作。


脉脉失联的 15 个小时里,兔子在忙什么?


什么都没干。


「干啥也没有用,我们做了很多事情,比如说骂娘,这个显然没有用。」兔子无奈地吐槽道,「催 IDC,这个成功率 50%。什么叫成功率 50% 呢?你 50%的概率打不进去电话,因为他们电话已经被打爆了。」


此次事件后,实力躺枪的兔子,在某关于容灾的分享会上表示:


「运维的基本职业素养就是,先背锅,再甩锅。说得通俗一点就是,先反省自己,透彻了以后,如有必要,再去指责别人。」


由于脉脉的基础架构中,采用海量的内存来维系人脉的网络数据,导致其多机房的容灾策略,相对于一般应用要有挑战得多。


在兔子的规划中,脉脉出于对人力,成本,业务的快速增长和迭代,以及服务的扩展性、高可用性之间平衡的全面考量,多机房容灾策略方案本将在今年的 Q4 落地实施,然而在这个节骨眼上却出现了这意想不到的大坑。


被断网事故发生后,为避免再次遇到不能有效通知用户的情况,兔子在事后立刻启用了第三方域名解析服务商 DNSPod 的企业服务;而出于对传统 IDC 在基础架构服务方面的隐忧,兔子在 7 月 29 日联系了 UCloud 云计算。


连提 100 多个技术问题,解决方案讨论超过 150 页


7 月 29 日 下午 14:00,UCloud 技术支持团队来到脉脉总部,与脉脉技术团队紧锣密鼓地展开了方案探讨。


兔子此前对混合云已有初步的了解,这一次深度接触,兔子以资深运维工程师的独到视角,一口气问了 100 多个技术问题,包括网络拓扑交流,停机迁移方案,不停机迁移方案,双 pop 点双星型的网络,以及 UCloud 异地专线、高防服务等等,几乎问遍了 UCloud 混合云方案的所有技术细节。


「兔子有着运维工程师该有的挑剔与骄傲。」UCloud 资深架构师叶仲华如是说。


最终,UCloud 既能充分利用脉脉的现有IT资产,又能同时输出公有云的各项特性的混合云技术方案获得了挑剔的兔子的认可。


而脉脉与 UCloud 混合云技术方案的讨论记录,在不知不觉间已超过了 150 页。


一波三折的迁移:脉脉「搬家」,新的开始


脉脉的用户更多集中在一线城市。在都市人结束了一周的辛苦工作后,周六的凌晨,成为脉脉在线率最低的时刻,也是最适合迁移的时机。


然而由于种种「难以名状」的原因阻挠,原本计划 8 月 27 日(周六)的迁移,延后到29日。


8 月 29 日凌晨的北京,夜色清朗,南风轻拂。


脉脉与 UCloud 针对整个过程着手制定迁移方案。在仔细核对了每个时间段的安排,每个时间点的负责人等细节后,双方齐心协力,有条不紊地开始了迁移工作。


服务器分批下架,装车,运送到新机房,上机架,插线,插电源,开机,调试所有的服务,确认数据没有问题。在所有人的努力下,这次的迁移最终顺利完成。


而入驻这个全新的家,在保证脉脉的在线业务稳定运行的同时,也能使其能在一些离线场景、GPU 计算、大数据分析等更多的创新业务上,向云端做更多的探索。


UCloud 怎么看「脉脉」迁移


UCloud内部也对此次混合云的合作做了进一步的复盘和思考:


1、 运维:朕对基础架构有了新想法;

       传统 IDC:可是臣妾做不到啊。


15 个小时的失联,对于一家拥有海量用户的互联网公司的业务可谓灾难,事件背后暴露了中国传统 IDC 体系下很多非常复杂的问题。


由于新一代运维人挑剔的自我要求,和基础架构运维的更高标准,大量传统的 IDC 企业正在加速分化和淘汰。在这个过程中,云计算运营商的价值被进一步放大。


2、 怎样才算对一个运维最基本的尊重?


兔子在脉脉自己的自留地写道:


「IDC 圈子这两年的无序扩张带来了许多问题,同质化,服务水准下降,恶性竞争等等。我可以理解销售同学们的 KPI 可能的确要通过堵门来完成——但是你们理解过我么?对待一个技术人员,请用你们对自己产品的了解,用你们特色的服务,用你们坚不可摧的技术架构来打动我,而不是请吃饭洗脚塞钱,而不是打电话打到死,约见面锲而不舍,那个都没用。」


而在 UCloud 看来,用产品和态度说话,让每一个细节超出预期,以及保持透明的沟通,是对一个运维最基本的尊重。


3、每一个用户,都是我们的「大兵瑞恩」


兔子在给 UCloud 的寄语中说,希望 UCloud 越来越大以后,依然能像现在一样,呈现同样的态度与服务。


其实,我们也切身感受到很多用户有着同样的诉求。因为他们从心里上不希望需求被忽略、业务被耽搁,所以他们特别期待,当 UCloud 越来越大之后,还能够像现在一样亲密无间。  


这让我们想起一部美国电影——《拯救大兵瑞恩》,它告诉我们,要「尊重每一个生命」。而对于 UCloud 来说,则是要尊重每一个用户,让每一个用户都能获得业内最高的服务标准和绝佳体验。这样的价值理念,是 UCloud 和其他巨头差异化的存在,是需要时刻坚守的荣光。


写在最后


留着长发的兔子,给人一种技术和人文混搭的风骨和浪漫,他在《写于脉脉 7.28 断网事件十二天后》里写道:


「或许,在不久的未来,脉脉还将短时间离开大家几个小时。但那将是可控的,在一个初秋的夜里,我们会尽全力守护着脉脉,帮她找到温暖而舒适的新家。而当朝阳从通州的方向升起(对不起我自己也没忍住笑……)的时候,她也将走出这一次阴霾,以一个更加优雅的姿态为各位可爱的用户们更好地服务。」


我们期待脉脉能给中国互联网带来更多的惊喜!



点击“阅读原文”了解更多 UCloud 混合云详情!

发表