逛知乎的时候看到这么个问题：

游戏设计中有哪些经典的计算公式？

其中有个答案提到了一种计算浮点数的平方根倒数的快速算法，其实我以前就曾经思考过大数平方根的计算方法，然后…就没有然后了。

神奇的地方在于这个快速算法中有个诡异的常数，据说至今没有人知道它最早是怎么来的。

代码示例

下面这段代码来源于上面那个答案。

float InvSqrt(float x)
{
	float xhalf = 0.5f*x;
	int i = *(int*)&x;
	i = 0x5f3759df - (i >> 1);
	x = *(float*)&i;
	x = x*(1.5f - xhalf*x*x);
	return x;
}

这个算法说到头只有这么几行而已，而恰恰神奇的就是这么几行代码可以非常快速地实现平方根倒数。

整个算法的关键就是第5行的那个诡异常数以及第7行的**牛顿迭代**了。

算法原理

要理解这个算法，首先要明白牛顿迭代，而牛顿迭代法的基础是泰勒级数。

泰勒级数

定义：如果$f(x)$在点$x=x_0$处具有任意阶导数，则幂级数：

$$
\begin{align}
f(x)&=\sum^{\infty}_{n=0}\frac{f^{(n)}(x_0)}{n!}(x-x_0)^n\
&=f(x_0)+f’(x_0)(x-x_0)+\frac{f’’(x_0)}{2!}(x-x_0)^2+…+\frac{f^{(n)}(x_0)}{n!}(x-x_0)^n+…
\end{align}$$

称为$f(x)$在$x=x_0$处的泰勒级数。

泰勒展开在数学上还有很多的应用…然而，高数学过去那么多年了，有啥用我早忘了…0.0

这里只要知道泰勒级数可以用来近似计算函数值就行了。

后面部分明显是越往后越小的，收敛性应该是要有条件来严格证明的…这个我也忘了。

牛顿迭代

牛顿迭代解线性方程，就是把线性方程$f(x)=0$线性化的一种近似方法。把$f(x)$在$x_0$的某个邻域内展开成泰勒级数，取其线性部分（前两项）：

$$
f(x)=f(x_0)+f’(x_0)(x-x_0)
$$

令其为零，就可以作为原本$f(x)=0$方程的近似方程了。只要$f’(x_0)\neq0$，方程的解就可以写成：

$$
x_1=x_0-\frac{f(x_0)}{f’(x_0)}
$$

这样，就得到牛顿迭代法的迭代关系式了：

$$
x_{n+1}=x_n-\frac{f(x_n)}{f’(x_n)}
$$

理论上来说，是不是我任意取一个满足$f’(x_0)\neq0$的数，都可以把它作为第1个近似解，然后通过不断地进行牛顿迭代，直到精度达到要求即解出了比较靠谱的方程解？

回到目标算法上面来，假设已知的数是$a$，要求它的平方根的倒数，就是解方程：

$$
(\frac{1}{x})^2=a
$$

即解方程：

$$
f(x)=\frac{1}{x^2}-a=0
$$

那么：

$$
f’(x)=-\frac{2}{x^3}
$$

代回到牛顿迭代式中去：

$$
\begin{align}
x_{n+1}&=x_n-\frac{f(x_n)}{f’(x_n)}\
&=x_n-\frac{\frac{1}{x^2_n}-a}{-\frac{2}{x^3_n}}\
&=x_n+\frac{x_n-ax^3_n}{2}\
&=\frac{3}{2}x_n-\frac{a}{2}x^3_n
\end{align}
$$

这个就是上面程序第7行的那个牛顿迭代式了。上面那个程序段只迭代了一次，其实精度是不够的，一般迭代2次，跟标准值的误差就不大了。

当然，迭代次数越多，精度越高，相应地耗时也是越长。

诡异的常数

最后，还有个问题没解决……0x5f3759df这个常数是什么鬼啊？

上面已经讨论过了，通过牛顿迭代法，我们可以在第n个近似解的基础上推出第n+1个精度更高的近似解。这里唯一的漏洞就是：我们必须得到第1个近似解！这样才能够往下递推！

而上面第5行的这段代码：

1	i = 0x5f3759df - (i >> 1);

就是用来计算第1个近似解的。

好吧，还是不明白这个数是怎么来的…

据史料记载：

浮点数的平方根倒数常用于计算正规化矢量。3D图形程序需要使用正规化矢量来实现光照和投影效果，因此每秒都需做上百万次平方根倒数运算，而在处理坐标转换与光源的专用硬件设备出现前，这些计算都由软件完成，计算速度亦相当之慢；在1990年代这段代码开发出来之时，多数浮点数操作的速度更是远远滞后于整数操作，因而针对正规化矢量算法的优化就显得尤为重要。

1999年的《雷神之锤III竞技场》就借助了这个神奇的算法。

《雷神之锤III》的代码直到QuakeCon 2005才正式放出，但早在2002年（或2003年）时平方根倒数速算法的代码就已经出现在Usenet与其他论坛上了。最初人们猜测是卡马克写下了这段代码，但他在询问邮件的回复中否定了这个观点，并猜测可能是先前曾帮id Software优化雷神之锤的资深汇编程序员Terje Mathisen写下了这段代码；而在Mathisen的邮件里他表示在1990年代初他只曾作过类似的实现，确切来说这段代码亦非他所作。现在所知的最早实现是由Gary Tarilli在SGI Indigo中实现的，但他亦坦承他仅对常数R的取值做了一定的改进，实际上他也不是作者。Rys Sommefeldt则在向以发明MATLAB而闻名的Cleve Moler查证后认为原始的算法是Ardent Computer公司的Greg Walsh所发明，但他也没有任何决定性的证据能证明这一点。

目前不仅该算法的原作者不明，人们也仍无法明确当初选择这个“魔术数字”的方法。Chris Lomont在研究中曾做了个试验：他编写了一个函数，以在一个范围内遍历选取R值的方式将逼近误差降到最小，以此方法他计算出了线性近似的最优R值0x5f37642f（与代码中使用的0x5f3759df相当接近），但以之代入算法计算并进行一次牛顿迭代后，所得近似值与代入0x5f3759df的结果相比精度却仍略微更低；而后Lomont将目标改为遍历选取在进行1－2次牛顿迭代后能得到最大精度的R值，并由此算出最优R值为0x5f375a86，以此值代入算法并进行牛顿迭代后所得的结果都比代入原始值（0x5f3759df）更精确，于是他的论文最后以“原始常数是以数学推导还是以反复试错的方式求得”的问题作结。在论文中Lomont亦指出64位的IEEE754浮点数（即双精度类型）所对应的魔术数字是0x5fe6ec85e7de30da，但后来的研究表明代入0x5fe6eb50c7aa19f9的结果精确度更高（McEniry得出的结果则是0x5FE6EB50C7B537AA，精度介于两者之间）。在Charles McEniry的论文中，他使用了一种类似Lomont但更复杂的方法来优化R值：他最开始使用穷举搜索法，所得结果与Lomont相同；而后他尝试用带权二分法寻找最优值，所得结果恰是代码中所使用的魔术数字0x5f3759df，因此McEniry确信这一常数或许最初便是以“在可容忍误差范围内使用二分法”的方式求得。

先复习一下计算机中**浮点数的表示法**

然后回到上面讨论过的第1个近似解，第1个近似解越接近正确答案，则显然牛顿迭代法的效果会越好。

考虑已知的浮点数$a$在计算机中的实际表示为：

$$(1+F)*2^E$$

那么它的平方根倒数为：

$$(1+F)^{-\frac{1}{2}}*2^{-\frac{E}{2}}$$

猜测一下：第5行代码中，将i右移1位，再用常数减掉，可以看成是将指数除2之后再取反。至于尾数…早都变得不知道哪去了。

所以，还是没明白这个常数是怎么来的，我只能猜测到这里了。

这里把Chris Lomont写的那篇论文也一并贴出来：FAST INVERSE SQUARE ROOT

Chenfan Blog

卡马克快速平方根倒数算法

代码示例

算法原理

泰勒级数

牛顿迭代

诡异的常数