写在前面的话

本篇论文是布朗大学数学系Steven J. Miller∗教授的论文翻译。
出处：The Method of Least Squares-Steven J. Miller∗

最小二乘法

Steven J. Miller*
布朗大学，数学系
普罗维登斯（美国罗得岛州的首府），RI 02912

摘要

原文
译文
最小二乘法是求解数据的最佳线性拟合的过程；它可以用简单微积分和线性代数来证明。根本的问题就是根据给定数据集(xn,yn),其中n属于{1,…,N}，然后对这些数据集求解y=ax+b最佳拟合直线。这个方法容易推广为求解最佳拟合直线的形式为：

上式中右边的f(x)不需要对x成线性关系，但等式右边的必须是函数的线性组合。

现实生活中，我们经常需要找到多个变量之间的线性关系。比如，弹簧的拉力和弹簧的长度成线性关系：y=kx(y是拉力，x是弹簧的长度，k是常数)。为了验证以上线性关系，研究者们在实验室测量不同拉力下的不同长度。然后他们按(xn,yn)，其中n属于{1,…,N}的形式收集数据，这里的yn是以牛顿为单位，xn是以米为单位。
很不幸的，它很难验证出我们上面那么精确的线性关系。原因有以下两个。第一个是实验误差，第二个是可能弹簧的拉力和长度不是成线性关系的。观察图1，弹簧定长为5的拉力和长度的测量数据集模拟。
最小二乘法是一个过程，它需要简单的微积分和线性代数，去决定什么是数据的“最佳拟合”线。当然，我们需要衡量“最佳拟合”的标准，那我们就要用上一些概率和统计学的知识了。
对证明的一个比较谨慎分析表明最小二乘法有很强的泛化能力。虽然求解不出精确的最佳拟合直线，但我们可以求解出给定的特定函数的有限线性组合。所以问题是，给定函数f1,f2…fk，求出以下线性组合中的系数a1,a2…ak的值。

就是对数据的最好的估计。

2.概率与统计知识的回顾

下面我们对最小二乘法需要用到的概率和统计相关的基本元素做一个快速的介绍；详细请看[BD, CaBe, Du, Fe, Kel, LF, MoMc]。
给定一个数据序列x1,x2…xN,我们定义平均数(或期望值)为(x1+x2+…+xN)/N。我们在x的上面加上一横作为标记：

平均数就是数据的均值。
观察下面两个数据序列：{10, 20, 30, 40, 50}和{30, 30, 30, 30, 30}。两个序列有相同的均值；但是，对于各个数和均值的差值，第一个序列有更大的变动。这就导出了方差的概念，方差是验证数据距离均值的波动程度大小的有用的工具。{x1, . . . , xN}的方差记为，式子如下：

标准差是方差的开平方：
注意到如果x的单位是米，那么方差的单位是平方米，而标准差和平均数的单位还是米。所以，用标准差来测量数据距离均值的波动更合适。
当然，我们还有另外的方法可用，例如：
但是这是一个带符号的数量，最大的正偏差和最大的负偏差会相互抵消。实际上，由平均数的定义就可以知道上面的式子结果为0！这是一个非常糟糕的数据偏差的测量，因为0对数据来说一点意义都没有。
我们可以通过绝对值来纠正这个问题，就如下面的式子：
虽然绝对值的好处是消除征服误差相互抵消的问题（而且它也有相同的单位），但绝对值函数并非一个好的函数分析。它是不可微的。这也是我们选用标准差的首要原因–它可以让我们利用微积分工具。
现在我们可以衡量“最佳拟合”的标准了。如果我们相信y=ax+b,那么y-(ax+b)应该等于0.所以，给定观测量

我们观察：
均值和应该是越小越好，然后求出方差就可以知道我们的数据拟合得好不好了。
那么这个数据集的方差是：
大误差应该给于大的权值，而小误差应该给于小的权值(因为误差进行了平方)。所以我们的最小二乘法更喜欢中等的误差而不是大误差。如果我们利用绝对值函数求误差(式子2.6)，那么所有的误差的权值都是一样的；而且，绝对值函数是不可微的，也就是用不了微积分工具的。

3.最小二乘法

给定数据,我们可以根据y=ax+b计算误差：
这就是数据集方差的N倍。那么我们研究方差的N倍和方差本身是没有差别的，我们注意到上面的错误是两个变量的函数。
我们的目标是求出令误差E(a,b)达到最小的a和b的值。在多变量微积分中我们知道对E(a,b)要分布求a和b的偏导数，并且偏导数等于0：
我们不需要考虑边界点：因为|a|和|b|值越大，拟合就变得越差。所以，我们不需要考虑边界点。
对E(a,b)求偏微分得：
假设(除以2)得到：
我们可以重写这些等式：
我们已经得到a和b的值了，它们能令误差最小，满足以下矩阵等式：
我们会证明矩阵是不可逆的，暗示着：
记矩阵为M，那么M的行列式是：
当：
我们得到：
上面最后的等式遵循简单的代数。所以，只要所有的Xn都不相等，detM的值就是非0而且是可逆的。
结论是，只要所有的x都不相等，那么最好的拟合的a和b的值可以通过求解一个线性方程组而得到；解在式子3.16给出了。
标记3.1 描绘在图1中的点是令xn=5+0.2n，然后令yn=5xn，再加上一个均值为0，标准差为4(n ∈ {1, . . . , 100})的正态分布的随机误差。利用这些值，我们找到一条最佳拟合直线为：

所以，a=4.99,b=0.48.相比我们期望的关系：y=5*x,我们期望一个更好的拟合值，a=5,b=0.
当a的值越来越接近真实值，b的值就会越来越小了。我们特地选取数据的这个特性来反映出在使用最小二乘法的问题。我们知道斜率的最佳值是4.99，而截距的最佳值是0.48，但是这并不是最好的估计。理论需要误差评估的技术支持。所以，我们想知道根据给定的数据，a落在(4.96,5.02)之间和b落在(-0.33,1.18)之间有99%的机会；这比我们仅仅知道最佳值更有用。
另外，如果我们用绝对值的方法：

那么算出的a的最佳值是5.03，b的最佳值是小于10的负10次方。这两种方法(绝对值方法和最小二乘法)求解出的不同的a和b是因为它们对错误的权值取值不同。

后记

这次虽然不是第一次翻译，但还是遇到许多人埋怨的翻译问题，就是由原文翻译到中文是一道很大的坑，真的很多地方不知道如何翻译，你要联系上下文，分析清楚语境，才能准确地翻译出它想表达的意思，而这不是一件很容易的事件，对于那些需要某些领域的专业知识的就是更难了。
所以，那么老是埋怨翻译人翻译的很差的人，还是不要那么激动的好，毕竟翻译也有翻译的痛。不过，无论怎样，这次翻译无论对我的理论知识的理解还是阅读英文文刊的能力都是有所增进的。

写在前面的话

最小二乘法

摘要

目录

1.问题的描述

2.概率与统计知识的回顾

3.最小二乘法

后记

参考文献列表