当前课程知识点:概率论与数理统计 > 第9章 回归分析 > 一元线性回归(相关系数检验) > 拓展知识
许多实际问题中,也常遇到响应变量 \( Y \) 与解释变量 \( x \) 之间的关系不是线性的情况,而是呈曲线(或曲面)形式的回归问题,我们把它称为一元非线性回归问题,下面简单列举一些常见的非线性回归函数和图形以及线性化方法。
假设响应变量 \( Y \) 与解释变量 \( x \) 呈非线性的关系,并且仍然有随机误差项,例如,
\[
Y=ab^xe^\varepsilon\tag{1}
\]\[
Y=a+be^{cx}+\varepsilon\tag{2}
\]对上述模型,可通过变量替换将 \( Y \) 与 \(X \) 间的非线性关系转换为线性关系。
对式(1),等式两边取自然对数,得:
\[\ln Y=\ln a+x\ln b+\varepsilon
\]令 \( \tilde {Y}=\ln Y,\quad \beta _0 =\ln a,\quad \beta _1 =\ln
b \),于是得到一元线性回归模型:
\[\tilde {Y}=\beta _0 +\beta _1 x+\varepsilon
\]对式(2),只需令 \( \tilde {x}=e^{cx} \) ( \( c \) 已知),即可转换为 \( Y=a+b\tilde
{x}+\varepsilon \)。如果原始样本数据为 \( (x_i ,y_i ),i=1,2,\cdots
,n \),则通过与模型对应的变量变换,对应于模型(1)和(2)的线性模型的数据分别为 \( (x_i
,\ln y_i ) \) 和 \( (e^{cx_i },y_i ),i=1,2,\cdots ,n \)。
如果将(1)式改变为 \( Y=ab^x+\varepsilon
\),其回归函数形式一样,但随机误差项不同,一个是乘积形式,另一个是相加形式。原则上,模型 \( Y=ab^x+\varepsilon \) 是不可以线性化的。因此,一个非线性回归模型是否可以线性化,不仅与回归函数形式有关,而且还与随机误差项 \( \varepsilon
\) 有关。
对误差项的形式,首先应该由数据的实际意义来确定,然后由回归拟合效果来确定。
过去,由于没有用于非线性回归的软件,人们总是希望非线性回归模型可以线性化,因而将误差项的形式都假定为可以线性化的形式。如今,利用计算机软件解决非线性回归的计算问题已经不是很难的事情了。
下面列出一些常见的可线性化的回归函数、曲线形状和线性化的变换。
欲比较多个非线性回归模型哪个更好,通常可采用决定系数和剩余标准差两个指标之一进行评价。
决定系数
\[R^2=\frac{S_R^2 }{S_T^2 }=\frac{\sum\limits_{i=1}^n {(\hat {y}_i
-\bar {y})^2} }{\sum\limits_{i=1}^n {(y_i -\bar {y})^2} }
\]其中 \( \hat {y}_i \left( {i=1,2,\cdots ,n}
\right) \) 是参数取估计值、自变量取 \( x_i \) 的回归函数值。\( R^2 \) 越大,说明残差越小,回归曲线拟合效果越好。\( R^2 \) 从总体上给出了一个拟合好坏程度的度量。
剩余标准差 \( s=\sqrt {\frac{\sum\limits_{i=1}^n {(y_i -\hat {y}_i )^2} }{n-2}}
\),\( s \) 越小,回归曲线拟合效果越好。下面举例说明。
例 随着国民经济水平的提高,全社会的用电量呈指数增长趋势。从2013年中国统计年鉴中,我们收集了1988-2012年间的某地区用电量 \( Y \) (亿千瓦小时)的统计数据。
\[\mbox{表1 某地区1988-2012年间的用电量数据}\]\[
\begin{array}{|cc|cc|cc|}
\hline
\mbox{年份} & \mbox{用电量(亿千瓦时)} & \mbox{年份} & \mbox{用电量(亿千瓦时)} & \mbox{年份} & \mbox{用电量(亿千瓦时)} \\\hline
1988 & 311.61 & 1997 & 774.04 & 2006 & 2569.75 \\
1989 & 343.12 & 1998 & 785.45 & 2007 & 2952.02 \\
1990 & 373.82 & 1999 & 848.48 & 2008 & 3118.32 \\
1991 & 421.85 & 2000 & 971.86 & 2009 & 3453.99 \\
1992 & 478.12 & 2001 & 1078.44 & 2010 & 3864.37 \\
1993 & 545.15 & 2002 & 1245.14 & 2011 & 4281.62 \\
1994 & 626.88 & 2003 & 1505.12 & 2012 & 4580.9 \\
1995 & 698.59 & 2004 & 1820.09 & \ \ & \ \ \\
1996 & 753.5 & 2005 & 2193.45 & \ \ & \ \ \\
\hline
\end{array}
\]以1988年为基准年,取值为 \( t=1 \),2012年 \( t=25 \)。由表1数据画散点图如下:
由散点图1可以看出,用电量关于时间 \( t \) 的趋势曲线呈指数形式或二次函数形式,回归函数可以选择为指数函数 \( y=ae^{bt} \),或者幂函数形式 \( y=a_1
t^{b_1 }(t>0) \),或者二次多项式 \( y=c_0 +c_1 t+c_2 t^2 \),其中 \( a,b \) 或 \( a_1,b_1 \) 或 \( c_0 ,c_1 ,c_2 \) 均为待定参数,需要用数据去估计(拟合)这些参数。这几种函数形式都可实现线性化。
如果选择指数函数 \( y=ae^{bt} \),两边取对数,得到 \( \ln y=\ln
a+bt \),由此转换为一元线性回归模型:
\[
\left\{
\begin{array}{l}
\tilde {y}_i =\beta _0 +\beta _1 t_i +\varepsilon _i ,\quad \tilde {y}_i
=\ln y_i ,\quad \beta _0 =\ln a,\quad \beta _1 =b,\quad \\
\varepsilon _1 ,\varepsilon _2 \cdots ,\varepsilon _{25} \text{ 独立同分布于 }N(0,\sigma
^2)
\end{array}
\right.\tag{3}
\]如果选择幂函数形式 \( y=a_1 t^{b_1 } \),同理两边取对数,得到 \( \ln y=\ln a_1 +b_1
\ln t \),则转换的一元线性回归模型为
\[
\left\{
\begin{array}{l}
\tilde {y}_i =\beta _0 +\beta _1 \tilde {t}_i +\tilde {\varepsilon }_i
,\quad \tilde {y}_i =\ln y_i ,\quad \\
\tilde {t}_i =\ln t_i ,\quad \beta _0
=\ln a_1 ,\quad \beta _1 =b_1 ,\quad \\
\tilde {\varepsilon }_1 ,\;\tilde {\varepsilon }_2 ,\ldots ,\tilde
{\varepsilon }_{25} \text{ 独立同分布于 }N(0,\sigma ^2) \\
\end{array}
\right.\tag{4}
\]如果选择二次多项式 \( y=c_0 +c_1 t+c_2 t^2 \),令 \( x_1 =t,x_2 =t^2 \),得到 \( y=c_0
+c_1 x_1 +c_2 x_2 \),由此转换为二元线性回归模型:
\[
\left\{
\begin{array}{l}
y_i =c_0 +c_1 x_{i1} +c_2 x_{i2}
+\check{\varepsilon } _i ,\quad x_{i1} =t_i ,\quad x_{i2} =t_i^2 , \\
\check{\varepsilon } _1 ,\;\check{\varepsilon } _2 ,\ldots
,\check{\varepsilon } _{25} \text{ 独立同分布于 }N(0,\sigma ^2)
\end{array}
\right.\tag{5}
\]针对模型(3)和(4),在Excel软件平台上分别对 \( \tilde {y} \) 与 \( t \) 、 \( \tilde
{y} \) 与 \( \ln t \) 进行一元线性回归分析。针对模型(5),对 \( y \) 与 \( x_1 ,x_2
\) 进行多元线性回归分析。计算结果分别如表2-5所示。
\[\mbox{表2 模型(3)、(4)、(5)的基本统计描述}\]\[
\begin{array}{|c|c|c|c|}
\hline
& \mbox{指数形式} & \mbox{幂函数形式} & \mbox{二次多项式} \\\hline
Multiple\ R & 0.9933 & 0.9005 & 0.9827 \\
Square & 0.9867 & 0.8108 & 0.9657 \\
Adjusted\ R\ Square & 0.9862 & 0.8026 &0.9626 \\
\mbox{标准误差} & 0.0437 & 0.1649 & 0.0701 \\
\mbox{观测值} &25 & 25 & 25 \\
\hline
\end{array}
\]\[\mbox{表3 模型(3)的方差分析表}\]\[
\begin{array}{|c|c|c|c|c|c|}
\hline
& df & SS & MS & F & Significance\ F \\\hline
\mbox{回归分析} & 1 & 3.2643 & 3.2643 & 1710.4739 & 0.0000 \\
\mbox{残差} & 23 & 0.0439 & 0.0019 & \ \ & \ \ \\
\mbox{总计} & 24 & 3.3081 & & & \\
\hline
\end{array}
\]\[\mbox{表4 模型(4)的方差分析表}\]\[
\begin{array}{|c|c|c|c|c|c|}
\hline
& df & SS & MS & F & Significance\ F \\\hline
\mbox{回归分析} & 1 & 2.6824 & 2.6824 & 98.5896 & 0.0000 \\
\mbox{残差} & 23 & 0.6258 & 0.0272 & & \\
\mbox{总计} & 24 & 3.3081 & & & \\
\hline
\end{array}
\]\[\mbox{表5 模型(5)的方差分析表}\]\[
\begin{array}{|c|c|c|c|c|c|}
\hline
& df & SS & MS & F & Significance\ F \\\hline
\mbox{回归分析} & 2 & 3.0425 & 1.5212 & 309.4600 & 0.0000 \\
\mbox{残差} & 22 & 0.1081 & 0.0049 & & \\
\mbox{总计} & 24 & 3.1506 & & & \\
\hline
\end{array}
\]
对于指数函数形式,拟合的线性回归系数为 \( \beta _0 =2.411,\quad \beta _1
=0.0501 \),则还原为非线性回归系数 \( \hat {a}=e^{2.411}\approx 11.1451,\quad
\hat {b}=0.0501 \)。由此得到非线性回归函数 \( \hat
{y}=11.1451\;e^{0.0501\;t} \),残差平方和为0.0439。
对于幂函数形式,拟合的线性回归系数为 \( \beta _0 =2.1327,\quad \beta _1
=0.9227 \),则还原为非线性回归系数 \( \hat {a}=e^{2.1327}\approx 8.4376,\quad
\hat {b}=0.9227 \),得到非线性回归函数 \( \hat
{y}=8.4376\;t^{0.9227} \),残差平方和为0.6258。
对于二次多项式函数形式,拟合的线性回归系数为 \( c_0 =0.1193,\quad c_1
=0.1114,\quad c_2 =-0.0025 \),则回归函数为 \( \hat
{y}=0.1193+0.1114t-0.0025t^2 \),残差平方和为0.1081。
究竟哪一个函数拟合效果比较好呢?由表2知,三种回归函数的决定系数 \( R^2 \) 分别为0.9867、0.8108和0.9657,这说明指数函数的决定系数比二次多项式、幂函数更接近1,效果最好。二次多项式的拟合效果也比较好。
三种回归函数的残差平方和的值分别为0.0439、0.6258和0.1081,残差平方和的值越小,表明拟合效果越好。显然,指数函数的拟合效果最好。
-课程发展概况及概率的三要素
--讲义下载
--拓展知识
-第一章第一节测试题
-古典概率
--讲义下载
--拓展知识
-第一章第二节测试题
-几何概率
--讲义下载
--拓展知识
-第一章第三节测试题
-条件概率与乘法公式
--讲义下载
--拓展知识
-第一章第四节测试题
-全概率公式
--讲义下载
--拓展知识
-第一章第五节测试题
-贝叶斯公式
--讲义下载
--拓展知识
-第一章第六节测试题
-事件的独立性及应用
--讲义下载
--拓展知识
-第一章第七节测试题
-讨论
--“三门”问题
-第一章测试题
-随机变量及其分布
--讲义下载
--拓展知识
-第二章第一节测试题
-一类离散型随机变量的分布
--讲义下载
--拓展知识
-第二章第二节测试题
-泊松分布及泊松定理
--讲义下载
--拓展知识
-第二章第三节测试题
-均匀分布与指数分布
--讲义下载
--拓展知识
-第二章第四节测试题
-正态分布
--讲义下载
--拓展知识
-第二章第五节测试题
-连续型随机变量函数的分布
--讲义下载
--拓展知识
-第二章第六节测试题
-讨论
--分布之间关系
-第二章测试题
-多维随机变量及分布(一)
--讲义下载
--拓展知识
-第三章第一节测试题
-多维随机变量及分布(二)
--讲义下载
--拓展知识
-第三章第二节测试题
-边缘分布律和边缘密度
--讲义下载
--拓展知识
-第三章第三节测试题
-条件分布与随机变量的独立性
--讲义下载
--拓展知识
-第三章第四节测试题
-随机变量极值的分布
--讲义下载
--拓展知识
-第三章第五节测试题
-随机变量和的分布
--讲义下载
--拓展知识
-第三章第六节测试题
-数形结合求解函数的分布
--讲义下载
--拓展知识
-第三章第七节测试题
-讨论
--分布类的和不变性
-第三章测试题
-数学期望和方差的定义
--讲义下载
--拓展知识
-第四章第一节测试题
-数学期望和方差的应用
--讲义下载
--拓展知识
-第四章第二节测试题
-数学期望的线性性质及应用
--讲义下载
--拓展知识
-第四章第三节测试题
-方差的性质与协方差
--讲义下载
--拓展知识
-第四章第四节测试题
-标准化与相关系数
--讲义下载
--拓展知识
-第四章第五节测试题
-讨论
-第四章测试题
-大数定律
--课程讲义下载
--拓展知识
-第五章第一节测试题
-中心极限定理
--讲义下载
--拓展知识
-第五章第二节测试题
-讨论
--用电量的正态假设
-第五章测试题
-数理统计的基本概念
--讲义下载
--拓展知识
-第六章第一节测试题
-单样本均值统计量的分布
--讲义下载
--拓展知识
-第六章第二节测试题
-单样本方差统计量的分布
--讲义下载
--拓展知识
-第六章第三节测试题
-讨论
--保险损失分布
-第六章测试题
-什么是参数估计
--讲义下载
--拓展知识
-第七章第一节测试题
-矩估计
--讲义下载
--拓展知识
-第七章第二节测试题
-似然原理与似然函数
--讲义下载
--拓展知识
-第七章第三节测试题
-连续型分布的似然估计
--讲义下载
--拓展知识
-第七章第四节测试题
-一类离散总体的似然估计
--讲义下载
--拓展知识
-第七章第五节测试题
-区间估计
--讲义下载
--拓展知识
-第七章第六节测试题
-讨论
--湖中有多少条鱼?
-第七章测试题
-假设检验的基本原理
--讲义下载
--拓展知识
-第八章第一节测试题
-两类错误
--讲义下载
--拓展知识
-第八章第二节测试题
-正态总体均值的检验
--讲义下载
--拓展知识
-第八章第三节测试题
-正态总体方差的检验
--讲义下载
--拓展知识
-第八章第四节测试题
-卡方拟合检验
--讲义加载
--拓展知识
-第八章第五节测试题
-讨论
-第八章测试题
-一元线性回归(最小二乘估计)
--讲义下载
--拓展知识
-第九章第一节测试题
-一元线性回归(相关系数检验)
--讲义下载
--拓展知识
-第九章第二节测试题
-讨论
--火灾损失的因素
-第九章测试题