猩猩谈卡顿

Posted on

点击查看微信稿件原文



#Niantic


点击上方蓝字关注 Ingress Beijing


猩猩的后端大佬 @ofer2 同学近期积极在论坛反馈关于游戏卡顿的问题,也让我们对为啥 Ingress 卡顿有一些了解,@ofer2 同学表示自己很理解玩家面临卡顿的烦躁,但是不得不解释下,虽然猩猩一直在努力,但是还是搞不好的原因。


首先,猩猩开始发现了 3 个独立的和卡顿有关的问题,在这些问题被解决之前,猩猩没办法判断到底是否所有的问题都解决了。(所以猩猩你们没有全链路监控?)


然后猩猩表示谷歌的基础设施有点问题,他们做升级的时候临时关闭了一些服务器,导致猩猩可用的系统容量大幅降低,从而导致了卡顿。猩猩通知了谷歌,要求他们晚上再搞这种事情(但是猩猩桑,这不是个全球游戏么……),当然,这个情况已经很久没有发生了。因为 GKE 服务管控面是不管不顾一定会自动升级的,然而一旦管控面的版本比节点版本高了,服务就歇了,所以升级总是要做的……只是猩猩不理解这个升级动作为啥都是白天搞谷歌的云只能做成这样?


再次呢,猩猩的所有游戏的共享一个中间层服务,负责客户端和服务端通信(移动网关?)然后这一块很复杂(言外之意:我猩猩搞不定),而且不在 Ingress 团队里面,所有的修复和问题都需要这个团队来帮忙。(言外之意:锅是他们的)


最后猩猩表示,他们通过随机采样的方式对性能数据进行了收集,找了一个所谓的 10 大卡顿可能清单(这手段真……无语,猩猩你们还活在2011年嘛),发现了一个新问题,就是当面对压力进行自动扩容的时候,猩猩被谷歌分配的资源经常处于“没准备好,但是先给你分配上让你等着”这么个状态,导致猩猩的服务器容量很长时间扩不上去,由于这个问题是偶发的,所以猩猩和谷歌都没找到原因。猩猩表示尽力了,也想了个方案,但是不知道是不是靠谱的……


所以……最后总结下就是:谷歌的基础设施技术水平不够,扩容扩不上去,升级不能平滑在线,中间团队的移动网关不靠谱,我们尽力了,至于为啥监控手软如此低劣……肯定也是谷歌框架的错吧!


欢迎关注我们的同步渠道


Telegram - https://t.me/IngressBeijing

Twitter - @ingressbeijing

网站 - https://bjres.net

投稿请发邮件至 tougao@bjres.net


投稿后请及时联系我们,联系方式:

Telegram - @alexrowe

QQ - 350259971

Niantic Chat Group - YxR8TEU4


戳原文访问网站对历史文章进行搜索。