win7系统奔溃,win7系统崩溃怎么办

2022-09-23 19:24:17 网络知识 官方管理员

207|0条评论

win7系统奔溃

(win7系统崩溃怎么办？

鱼羊丰色发自凹非寺
量子位 | 公众号 QbitAI

一个小字符0实际上导致了B站的全面崩溃。

我不知道你是否还记得那天晚上，B站在大楼停电、服务器爆炸、程序员删跑路的彻夜狂欢。(手动狗头)

时隔一年，背后的真凶终于被阿B披露了——

没想到，就是这么简单的几行代码，直接干了B站两三个小时，让B站程序员彻夜无眠，头发疯了。

你可能会问，这不是一个普通的函数来寻求最大的公约数吗？为什么它如此强大？

归根结底，背后的一个接一个，其实是一句话：0，它真的不兴除啊。

让我们来看看事故报告。

字符串“0”引发的“血案”

先说说悲剧的根本原因，也就是开头贴的。gcd函数。

学过一点编程知识的朋友应该知道，这是一种用途辗转相除法计算最大公约数递归函数。

不同于我们手算最大公约数的方法，这个算法是酱阿姨的:

举个简单的例子，a=24，b=18，求a和b最大公约数；

a除以b，得到的余数是6，然后让a=18，b=然后往下算；

18除以6，这次余数为0，所以6是24和18的最大公约数。

也就是说，a和b反复相除取余数，直到b=0，函数中：

if b==0 then return a end

这个判断句子有效，结果就算出来了。

基于这样的数学原理，我们来看看这个代码，似乎没有问题:

但是如果输入的b是字符串0呢？

B站技术分析文章提到，事故代码是使用的Lua写的。Lua有几个特点：

这是一种动态语言，常用的习惯变量不需要定义类型，直接赋值变量。Lua算术操作数字字符串时，会尝试将数字字符串转换成数字。在Lua语言中，数学运算n%0的结果是nan(Not A Number)。

让我们模拟一下这个过程：

1.当b是字符串0时，因为这个gcd函数没有验证其类型，所以0不等于0，代码中的return _gcd(b, a%b)触发，返回_gcd(“0”, nan)。

2、_gcd(“0”, nan)再次执行，返回值变成_gcd(nan, nan)。

这就结束了小牛，判断句子b=0的条件永远达不到，所以，死循环出现了。

也就是说，这个程序开始疯狂地转圈，为了一个永远得不到的结果，把它放在原地CPU占100%，其他用户的请求自然无法处理。

所以问题来了，这个0是怎么进去的？

官方说法是：

在某种发布模式下，应用程序的实例权重将短暂调整为0，注册中心将返回SLB(负载均衡)权重为字符串类型的0。本发布环境仅用于生产环境，使用频率极低SLB这个问题在早期灰度过程中没有触发。

SLB在balance_by_lua在共享内存中保存的服务阶段IP、Port、Weight作为参数传递lua-resty-balancer选择模块upstream server，在节点weight=“0”时，balancer模块中的_gcd函数收到的入参b可能是0。

bug如何定位？

从事后诸葛亮的角度来看，造成哔哩哔哩全面崩溃的根本原因有点仅此而已。

bug如何定位？

从事后诸葛亮的角度来看，造成哔哩哔哩全面崩溃的根本原因有点仅此而已。

但从程序员的角度来看，事情真的不辣吗？

当晚22:52-大多数程序员刚下班或还没下班的节骨眼（doge），B站运维收到服务不可用的报警，第一时间怀疑机房、网络、四层LB、七层SLB等基础设施出现问题。

然后立即与相关技术人员拉紧急语音会议开始处理。

5分钟后，运维发现承载所有在线业务的主机房七层SLB的CPU占用率达到100%

，无法处理用户请求，排除其他设施后，锁定故障为该层。

（七层SLB是指基于URL平衡应用层信息的负载。通过算法将客户请求分配到服务器集群，从而降低服务器压力。）