数理统计学发展简史

一、历史注记
    数理统计起源于人口调查，早在公元前3000年古代的巴比伦、中国和埃及就已进行过人口调查，当时描述性统计占据主导地位。早期的统计工作都与国家实施统治有关。统计学的英文词statistics源出于拉丁文，由status(状态、国家）和statista(政治家）衍化而来。
    数理统计大规模发展始于19世纪末20世纪初。在1856-1863年期间，孟德尔（Gregor
Mendel）从科学实验中发现了遗传学的统计规律。1889年左右，高尔登（F.Galton）受达尔文（Charle Darwin）的\(物种起源\)一书的刺激，研究了平均值的偏差问题与回归问题，对生物统计学做出重要的贡献。1890年卡皮尔逊（Karl Pearson）受高尔登工作的激发，开始把数学与概率论应用于达尔文的进化论，从而开创了现代数理统计的时代。他致力于统计方法的研究，今天的描述性统计学的大部分内容是他整理出来的，大部分数理统计用语也是他命名的，这使得他赢得了"统计学之父"的称号。
    现代数理统计发展历史大致分为两个阶段。第一阶段大致到第二次世界大战结束为止。在这一阶段中，对数理统计有重大影响的学者除卡皮尔逊以外，还有费希尔（R.A.Fisher）、奈曼（J.Neyman）、伊皮尔逊（E.S.Pearson）等。他们从实际出发，推动了一些主要数理统计分支的建立，如正态总体下的抽样分布理论，以最大似然估计为代表的点估计理论，实验设计，方差分析等。第二阶段是从第二次世界大战结束后至今。数理统计的研究沿着纵深方向快速发展，除把把第一阶段中的不足和粗糙之处弥补外，还提出了许多新问题、新理论和新的研究方向。
    在理论上，参数估计、随机过程、贝叶斯理论、多元统计分析等学科得到纵深发展。在应用上，由于经济和军事技术的快速发展以及电子计算机的出现，使数理统计学的应用达到了前所未有的规模。有些需要大量计算的统计方法，在战前限于条件而无法使用，这个障碍今日已不复存在。统计方法已渗透进各种专门的学科领域，形成了许多边缘学科，如统计质量管理、生物统计、气象统计、地质统计、计量经济学、医学统计等。

二、数据描述
    对样本观测数据进行简单的数据描述，即对数据加以整理、归类、简化或绘制成图表，以归纳出数据的特征或变量之间的关系，这是进行统计推断的基础。

1. 集中位置
    常用均值、众数、中位数、分位数来描述一组数据的集中位置。
    设 \( x_1 ,x_2 ,\cdots ,x_n \) 是一组观测数据，则数据：

平均值：
\[\bar {x}=\frac{1}{n}\sum\limits_{i=1}^n {x_i } \]

众数：在 \( x_1 ,x_2 ,\cdots ,x_n \) 中出现频数最大或频率最高的数据。

中位数 \( \tilde {M} \) ：设 \( x_1 ,x_2 ,\cdots ,x_n
\) 是一组观测数据，将该组数据由小到大进行排列为 \( x_{(1)} \le x_{(2)} \le \cdots
\le x_{(n)} \)，称 \( x_{(1)} ,x_{(2)} ,\cdots ,x_{(n)} \) 为有序数据。
\[
\tilde {M}=\left\{ \begin{array}{ll}
x_{\left( {\frac{n+1}{2}} \right)} & n \mbox{ 为奇数}\\
\frac{1}{2} \left[x_{(\frac{n}{2})} +x_{(\frac{n}{2}+1)}\right] & n \mbox{ 为偶数}
\end{array} \right.
\]
分位数 \( v_p \) ：对有序数据 \( x_{(1)} ,x_{(2)} ,\cdots ,x_{(n)}
\)，给定常数 \( p(0\le p<1) \)，称
\[
v_p =\left\{ {\begin{array}{ll}
x_{(\left[ {np} \right]+1)} ,& np \mbox{ 为整数} \\
\frac{1}{2}(x_{(np)} +x_{(np+1)} ),& np \mbox{ 不为整数}\\
\end{array}} \right.
\]
其中 \( [np] \) 表示 \( np \) 的整数部分。

2. 离散程度
    描述一组数据离散程度的指标通常有极差、方差、标准差、变异系数、标准误。

极差：对有序数据 \( x_{(1)} ,x_{(2)} ,\cdots ,x_{(n)} \)，\( R=x_{(n)} -x_{(1)} \)

方差： \( s^2=\frac{1}{n-1}\sum\limits_{i=1}^n {(x_i -\bar {x})^2} \)

标准差： \( s=\sqrt {\frac{1}{n-1}\sum\limits_{i=1}^n {(x_i -\bar {x})^2} } \)

变异系数： \( \delta =\frac{s}{\bar {x}}\times 100\% \)

标准误差： \( s.e.=\frac{s}{\sqrt n } \)

注意：变异系数是刻画数据相对分散性的另一种量度，又称``标准差率''。当量纲和（或）平均值不同时，标准差就不能较好地度量各组数据的波动大小。此时，采用变异系数则能较好地度量各自波动的相对大小。
    均值的标准误是描述平均值抽样分布的离散程度及衡量平均值抽样误差大小的尺度，常用来衡量抽样误差。

3. 数据的图形描述
    把一些数据直接显示在平面上，便可从图形一目了然地看出一个数据组所具有的一些基本特征。常用的图形化工具有箱线图、直方图、茎叶图。

（1）箱线图
    箱线图（box plot）又称作箱图、盒形图或盒子图。

例1    现随机测得16位中学生的体重（单位：kg）数据如下所示
\[53.5,75.0,64.0,47.4,66.9,62.2,62.2,58.7\]\[63.5,66.7,64.0,57.2,69.0,56.9,50.0,72.0\]
生成的箱线图如图1所示。

箱线图利用中位数、下四分位数、上四分位数、分布状态的高位以及分布状态的低位5个点对数据进行总结，可以很形象地分为中心、延伸以及分布状态的全部范围。

（2）直方图
    直方图是用来拟合连续型总体密度函数曲线的方法，能对数据的分布情况进行直观了解。

例2 为研究某厂工人生产某种产品能力，随机调查了20位工人某天生产的该种产品数量，具体样本值如表1所示。
\[\mbox{表1 20位工人某天生产的该种产品数量}\]\[
\begin{array}{|c|c|c|c|c|}
\hline
160&
196&
164&
148&
170 \\
\hline
175&
178&
166&
181&
162 \\
\hline
161&
168&
166&
162&
172 \\
\hline
156&
170&
157&
162&
154 \\
\hline
\end{array}
\]

现对2个数据绘制直方图，如图2所示。

由图2可见，以等间距10将[140,200]划分为六个区间，统计每个区间的频数，矩形的高低表示频数的大小，显然，位于区间[160,170]的频率最大。

（3）茎叶图
    茎叶图称作枝叶图。将数组中的数按位数进行比较，将数的大小基本不变或变化不大的位作为一个主干（茎），将变化大的位的数作为分枝（叶），列在主干的后面，可以清楚地看到每个主干后面有几个数，每个数具体是多少

例3 某高中一年级 32 名学生某门课程第一学期期末考试成绩如下：
\[27,42,47,50,55,56,62,64,68,72,75,75,78,79,81,83\]\[84,84,84,85,86,86,86,87,89,89,89,90,91,92,92,100\]
由考试成绩绘制的茎叶图如图3所示。


在本例中，对学生成绩，将十位当作茎，个位当作叶，如对成绩27：2是十位数，是茎，7是个位数，是叶。
2和7之间用竖线（主干）分隔为：2 \( \vert \)
7.当一个茎对应多个叶时，将所有的叶按从小到大的顺序放在竖线后面，如62，64，68变成为： \( 6\vert 248 \)。其它数据类似。

茎叶图将统计分组和次数分配一次完成，是探索性数据分析中对数据的初步形象描绘。茎叶图与直方图比较类似，但茎叶图保留了原始资料的具体数值，从而对数据的取值情况一目了然。将茎叶图的茎和叶逆时针方向旋转90度，实际上就是一个直方图，可以从中统计出次数，计算出各数据段的频率或百分比。

在进行两组数据的比较时，可以绘制背靠背的茎叶图。

例4 接例3，已知半年后，这32名学生本门课程第二学期期末考试的成绩如下：
\[\mbox{第一学期期末成绩}\qquad\qquad\mbox{第二学期期末成绩}\]\[\begin{array}{|c|c|c|c|c|c|c||c|c|c|c|c|c|c|}
\hline
27&
42&
47&
50&
55&
56&
62&
28&
43&
56&
54&
64&
61&
70 \\
\hline
64&
68&
72&
75&
75&
78&
79&
68&
68&
75&
77&
75&
84&
85 \\
\hline
81&
83&
84&
84&
84&
85&
86&
83&
91&
87&
87&
85&
91&
86 \\
\hline
86&
86&
87&
89&
89&
89&
90&
90&
91&
91&
96&
92&
96&
93 \\
\hline
91&
92&
92&
100&
&
&
&
97&
95&
97&
100&
&
&
\\
\hline
\end{array}
\]
由上述数据可得第一学期期末考试成绩与第二学期期末考试成绩的背靠背茎叶图，见图4所示。

在图 4 中，茎在中间，左边表示第一学期期末的考试成绩，右边表示第二学期期末的考试成绩。从茎叶图可以看到，第一学期期末学生的成绩在茎为7和8时比较多，而第二学期期末学生的成绩在茎为8和9时比较多，表明第二学期的成绩要比第一学期的成绩好。