当前课程知识点:概率论与数理统计 >  第9章 回归分析 >  一元线性回归(相关系数检验) >  拓展知识

返回《概率论与数理统计》慕课在线视频课程列表

拓展知识资料文件与下载

拓展知识

                              一元非线性回归

        许多实际问题中,也常遇到响应变量 \( Y \) 与解释变量 \( x \) 之间的关系不是线性的情况,而是呈曲线(或曲面)形式的回归问题,我们把它称为一元非线性回归问题,下面简单列举一些常见的非线性回归函数和图形以及线性化方法。
        假设响应变量 \( Y \) 与解释变量 \( x \) 呈非线性的关系,并且仍然有随机误差项,例如,
\[
Y=ab^xe^\varepsilon\tag{1}
\]\[
Y=a+be^{cx}+\varepsilon\tag{2}
\]对上述模型,可通过变量替换将 \( Y \) 与 \(X \) 间的非线性关系转换为线性关系。
        对式(1),等式两边取自然对数,得:
\[\ln Y=\ln a+x\ln b+\varepsilon
\]令 \( \tilde {Y}=\ln Y,\quad \beta _0 =\ln a,\quad \beta _1 =\ln
b \),于是得到一元线性回归模型:
\[\tilde {Y}=\beta _0 +\beta _1 x+\varepsilon
\]对式(2),只需令 \( \tilde {x}=e^{cx} \) ( \( c \) 已知),即可转换为 \( Y=a+b\tilde
{x}+\varepsilon  \)。如果原始样本数据为 \( (x_i ,y_i ),i=1,2,\cdots
,n \),则通过与模型对应的变量变换,对应于模型(1)和(2)的线性模型的数据分别为 \( (x_i
,\ln y_i ) \) 和 \( (e^{cx_i },y_i ),i=1,2,\cdots ,n \)。

        如果将(1)式改变为 \( Y=ab^x+\varepsilon
 \),其回归函数形式一样,但随机误差项不同,一个是乘积形式,另一个是相加形式。原则上,模型 \( Y=ab^x+\varepsilon  \) 是不可以线性化的。因此,一个非线性回归模型是否可以线性化,不仅与回归函数形式有关,而且还与随机误差项 \( \varepsilon
 \) 有关。
        对误差项的形式,首先应该由数据的实际意义来确定,然后由回归拟合效果来确定。
        过去,由于没有用于非线性回归的软件,人们总是希望非线性回归模型可以线性化,因而将误差项的形式都假定为可以线性化的形式。如今,利用计算机软件解决非线性回归的计算问题已经不是很难的事情了。

        下面列出一些常见的可线性化的回归函数、曲线形状和线性化的变换。


欲比较多个非线性回归模型哪个更好,通常可采用决定系数和剩余标准差两个指标之一进行评价。
        决定系数
\[R^2=\frac{S_R^2 }{S_T^2 }=\frac{\sum\limits_{i=1}^n {(\hat {y}_i
-\bar {y})^2} }{\sum\limits_{i=1}^n {(y_i -\bar {y})^2} }
\]其中 \( \hat {y}_i \left( {i=1,2,\cdots ,n}
\right) \) 是参数取估计值、自变量取 \( x_i  \) 的回归函数值。\( R^2 \) 越大,说明残差越小,回归曲线拟合效果越好。\( R^2 \) 从总体上给出了一个拟合好坏程度的度量。
        剩余标准差 \( s=\sqrt {\frac{\sum\limits_{i=1}^n {(y_i -\hat {y}_i )^2} }{n-2}}
 \),\( s \) 越小,回归曲线拟合效果越好。下面举例说明。

例  随着国民经济水平的提高,全社会的用电量呈指数增长趋势。从2013年中国统计年鉴中,我们收集了1988-2012年间的某地区用电量 \( Y \) (亿千瓦小时)的统计数据。
\[\mbox{表1 某地区1988-2012年间的用电量数据}\]\[
\begin{array}{|cc|cc|cc|}
\hline
   \mbox{年份} & \mbox{用电量(亿千瓦时)} & \mbox{年份} & \mbox{用电量(亿千瓦时)} & \mbox{年份} & \mbox{用电量(亿千瓦时)} \\\hline
   1988 & 311.61 & 1997 & 774.04 & 2006 & 2569.75 \\
   1989 & 343.12 & 1998 & 785.45 & 2007 & 2952.02 \\
   1990 & 373.82 & 1999 & 848.48 & 2008 & 3118.32 \\
   1991 & 421.85 & 2000 & 971.86 & 2009 & 3453.99 \\
   1992 & 478.12 & 2001 & 1078.44 & 2010 & 3864.37 \\
   1993 & 545.15 & 2002 & 1245.14 & 2011 & 4281.62 \\
   1994 & 626.88 & 2003 & 1505.12 & 2012 & 4580.9 \\
   1995 & 698.59 & 2004 & 1820.09 & \ \  & \ \ \\
   1996 & 753.5 & 2005  & 2193.45 & \ \  & \ \ \\
\hline
\end{array}
\]以1988年为基准年,取值为 \( t=1 \),2012年 \( t=25 \)。由表1数据画散点图如下:
                                           
由散点图1可以看出,用电量关于时间 \( t \) 的趋势曲线呈指数形式或二次函数形式,回归函数可以选择为指数函数 \( y=ae^{bt} \),或者幂函数形式 \( y=a_1
t^{b_1 }(t>0) \),或者二次多项式 \( y=c_0 +c_1 t+c_2 t^2 \),其中 \( a,b \) 或 \( a_1,b_1 \) 或 \( c_0 ,c_1 ,c_2  \) 均为待定参数,需要用数据去估计(拟合)这些参数。这几种函数形式都可实现线性化。

        如果选择指数函数 \( y=ae^{bt} \),两边取对数,得到 \( \ln y=\ln
a+bt \),由此转换为一元线性回归模型:
\[
\left\{
\begin{array}{l}
\tilde {y}_i =\beta _0 +\beta _1 t_i +\varepsilon _i ,\quad \tilde {y}_i
=\ln y_i ,\quad \beta _0 =\ln a,\quad \beta _1 =b,\quad \\
\varepsilon _1 ,\varepsilon _2 \cdots ,\varepsilon _{25} \text{ 独立同分布于 }N(0,\sigma
^2)
\end{array}
\right.\tag{3}
\]如果选择幂函数形式 \( y=a_1 t^{b_1 } \),同理两边取对数,得到 \( \ln y=\ln a_1 +b_1
\ln t \),则转换的一元线性回归模型为
\[
\left\{
\begin{array}{l}
 \tilde {y}_i =\beta _0 +\beta _1 \tilde {t}_i +\tilde {\varepsilon }_i
,\quad \tilde {y}_i =\ln y_i ,\quad \\
\tilde {t}_i =\ln t_i ,\quad \beta _0
=\ln a_1 ,\quad \beta _1 =b_1 ,\quad \\
\tilde {\varepsilon }_1 ,\;\tilde {\varepsilon }_2 ,\ldots ,\tilde
{\varepsilon }_{25} \text{ 独立同分布于 }N(0,\sigma ^2) \\
\end{array}
\right.\tag{4}
\]如果选择二次多项式 \( y=c_0 +c_1 t+c_2 t^2 \),令 \( x_1 =t,x_2 =t^2 \),得到 \( y=c_0
+c_1 x_1 +c_2 x_2  \),由此转换为二元线性回归模型:
\[
\left\{
\begin{array}{l}
 y_i =c_0 +c_1 x_{i1} +c_2 x_{i2}
+\check{\varepsilon } _i ,\quad x_{i1} =t_i ,\quad x_{i2} =t_i^2 , \\
\check{\varepsilon } _1 ,\;\check{\varepsilon } _2 ,\ldots
,\check{\varepsilon } _{25} \text{ 独立同分布于 }N(0,\sigma ^2)
\end{array}
\right.\tag{5}
\]针对模型(3)和(4),在Excel软件平台上分别对 \( \tilde {y} \) 与 \( t \) 、 \( \tilde
{y} \) 与 \( \ln t \) 进行一元线性回归分析。针对模型(5),对 \( y \) 与 \( x_1 ,x_2
 \) 进行多元线性回归分析。计算结果分别如表2-5所示。
\[\mbox{表2 模型(3)、(4)、(5)的基本统计描述}\]\[
\begin{array}{|c|c|c|c|}
\hline
     & \mbox{指数形式}   & \mbox{幂函数形式} & \mbox{二次多项式}  \\\hline
  Multiple\ R & 0.9933 & 0.9005 & 0.9827  \\
  Square & 0.9867 & 0.8108 & 0.9657   \\
  Adjusted\ R\ Square & 0.9862 & 0.8026 &0.9626   \\
  \mbox{标准误差}  & 0.0437 & 0.1649 & 0.0701 \\
  \mbox{观测值}    &25 & 25 & 25 \\
\hline
\end{array}
\]\[\mbox{表3 模型(3)的方差分析表}\]\[
\begin{array}{|c|c|c|c|c|c|}
\hline
   & df & SS & MS & F & Significance\ F \\\hline
   \mbox{回归分析} & 1 & 3.2643 & 3.2643 & 1710.4739 & 0.0000  \\
   \mbox{残差} & 23 & 0.0439 & 0.0019  & \ \  & \ \    \\
   \mbox{总计} & 24 & 3.3081 &  & & \\
\hline
\end{array}
\]\[\mbox{表4 模型(4)的方差分析表}\]\[
\begin{array}{|c|c|c|c|c|c|}
\hline
   & df & SS & MS & F & Significance\ F \\\hline
   \mbox{回归分析} & 1 & 2.6824 & 2.6824 & 98.5896  & 0.0000  \\
  \mbox{残差} & 23 & 0.6258 & 0.0272  &   &  \\
   \mbox{总计} & 24 & 3.3081 &   &  & \\
\hline
\end{array}
\]\[\mbox{表5 模型(5)的方差分析表}\]\[
\begin{array}{|c|c|c|c|c|c|}
\hline
   & df & SS & MS & F & Significance\ F \\\hline
   \mbox{回归分析} & 2 & 3.0425  & 1.5212 & 309.4600  & 0.0000  \\
   \mbox{残差} & 22 & 0.1081 & 0.0049  & &  \\
   \mbox{总计} & 24 & 3.1506 & &  &  \\
\hline
\end{array}
\]

        对于指数函数形式,拟合的线性回归系数为 \( \beta _0 =2.411,\quad \beta _1
=0.0501 \),则还原为非线性回归系数 \( \hat {a}=e^{2.411}\approx 11.1451,\quad
\hat {b}=0.0501 \)。由此得到非线性回归函数 \( \hat
{y}=11.1451\;e^{0.0501\;t} \),残差平方和为0.0439。

        对于幂函数形式,拟合的线性回归系数为 \( \beta _0 =2.1327,\quad \beta _1
=0.9227 \),则还原为非线性回归系数 \( \hat {a}=e^{2.1327}\approx 8.4376,\quad
\hat {b}=0.9227 \),得到非线性回归函数 \( \hat
{y}=8.4376\;t^{0.9227} \),残差平方和为0.6258。

        对于二次多项式函数形式,拟合的线性回归系数为 \( c_0 =0.1193,\quad c_1
=0.1114,\quad c_2 =-0.0025 \),则回归函数为 \( \hat
{y}=0.1193+0.1114t-0.0025t^2 \),残差平方和为0.1081。

        究竟哪一个函数拟合效果比较好呢?由表2知,三种回归函数的决定系数 \( R^2 \) 分别为0.9867、0.8108和0.9657,这说明指数函数的决定系数比二次多项式、幂函数更接近1,效果最好。二次多项式的拟合效果也比较好。
        三种回归函数的残差平方和的值分别为0.0439、0.6258和0.1081,残差平方和的值越小,表明拟合效果越好。显然,指数函数的拟合效果最好。

下一节:火灾损失的因素

返回《概率论与数理统计》慕课在线视频列表

概率论与数理统计课程列表:

第1章 随机事件与概率

-课程发展概况及概率的三要素

--课程发展概况及概率的三要素(刘琼荪)--9:09min

--讲义下载

--拓展知识

-第一章第一节测试题

-古典概率

--古典概率(黎雅莲)--8:27min

--讲义下载

--拓展知识

-第一章第二节测试题

-几何概率

--几何概率(李曼曼)--7:01

--讲义下载

--拓展知识

-第一章第三节测试题

-条件概率与乘法公式

--条件概率及乘法公式(刘琼荪)--8:00min

--讲义下载

--拓展知识

-第一章第四节测试题

-全概率公式

--全概率公式(荣腾中)--9.57min

--讲义下载

--拓展知识

-第一章第五节测试题

-贝叶斯公式

--贝叶斯公式(荣腾中)-10:00min

--讲义下载

--拓展知识

-第一章第六节测试题

-事件的独立性及应用

--事件的独立性及应用(刘琼荪)--9:53min

--讲义下载

--拓展知识

-第一章第七节测试题

-讨论

--“三门”问题

-第一章测试题

第2章 一维随机变量及其分布

-随机变量及其分布

--随机变量及其分布(刘琼荪)--8:05min

--讲义下载

--拓展知识

-第二章第一节测试题

-一类离散型随机变量的分布

--一类离散型随机变量的分布(李曼曼)--08:57min

--讲义下载

--拓展知识

-第二章第二节测试题

-泊松分布及泊松定理

--泊松分布与泊松定理(李曼曼)--7:40min

--讲义下载

--拓展知识

-第二章第三节测试题

-均匀分布与指数分布

--均匀分布与指数分布(李曼曼)--08:36min

--讲义下载

--拓展知识

-第二章第四节测试题

-正态分布

--正态分布(刘琼荪)--8:40min

--讲义下载

--拓展知识

-第二章第五节测试题

-连续型随机变量函数的分布

--连续型随机变量函数的分布(黎雅莲)--09:58min

--讲义下载

--拓展知识

-第二章第六节测试题

-讨论

--分布之间关系

-第二章测试题

第3章 多维随机变量及其分布

-多维随机变量及分布(一)

--多维随机变量及其分布(一)(李曼曼)-08:03

--讲义下载

--拓展知识

-第三章第一节测试题

-多维随机变量及分布(二)

--多维随机变量及其分布(二)(李曼曼)-06:16min

--讲义下载

--拓展知识

-第三章第二节测试题

-边缘分布律和边缘密度

--边缘分布律与边缘密度(黎雅莲)-07:55min

--讲义下载

--拓展知识

-第三章第三节测试题

-条件分布与随机变量的独立性

--条件分布与随机变量的独立性(黎雅莲)-11:15min

--讲义下载

--拓展知识

-第三章第四节测试题

-随机变量极值的分布

--随机变量的极值分布(荣腾中)-09:55min

--讲义下载

--拓展知识

-第三章第五节测试题

-随机变量和的分布

--随机变量和的分布(荣腾中)-10:02min

--讲义下载

--拓展知识

-第三章第六节测试题

-数形结合求解函数的分布

--数形结合求解函数的分布(荣腾中)-08:59min

--讲义下载

--拓展知识

-第三章第七节测试题

-讨论

--分布类的和不变性

-第三章测试题

第4章 随机变量的数字特征

-数学期望和方差的定义

--数学期望与方差的定义(李曼曼)-07:25min

--讲义下载

--拓展知识

-第四章第一节测试题

-数学期望和方差的应用

--数学期望和方差的应用(荣腾中)-08:59min

--讲义下载

--拓展知识

-第四章第二节测试题

-数学期望的线性性质及应用

--数学期望的线性性质和应用(荣腾中)-08:56min

--讲义下载

--拓展知识

-第四章第三节测试题

-方差的性质与协方差

--方差的性质与协方差(荣腾中)-11:15min

--讲义下载

--拓展知识

-第四章第四节测试题

-标准化与相关系数

--标准化与相关系数(荣腾中)-11:24min

--讲义下载

--拓展知识

-第四章第五节测试题

-讨论

--相关关系与因果关系

-第四章测试题

第5章 极限定理

-大数定律

--大数定律(胥斌)-13:17min

--课程讲义下载

--拓展知识

-第五章第一节测试题

-中心极限定理

--中心极限定理(胥斌)-09:48min

--讲义下载

--中心极限定理动态演示

--拓展知识

-第五章第二节测试题

-讨论

--用电量的正态假设

-第五章测试题

第6章 数理统计的基本概念

-数理统计的基本概念

--数理统计的基本概念(刘琼荪)-10:12min

--讲义下载

--拓展知识

-第六章第一节测试题

-单样本均值统计量的分布

--单样本均值统计量的分布(刘琼荪)-12:05min

--讲义下载

--拓展知识

-第六章第二节测试题

-单样本方差统计量的分布

--单样本方差统计量的分布(刘琼荪)-10:40min

--讲义下载

--拓展知识

-第六章第三节测试题

-讨论

--保险损失分布

-第六章测试题

第7章 参数估计

-什么是参数估计

--参数与参数空间(荣腾中)-07:08min

--讲义下载

--拓展知识

-第七章第一节测试题

-矩估计

--矩估计(荣腾中)-09:14min

--讲义下载

--拓展知识

-第七章第二节测试题

-似然原理与似然函数

--似然原理与似然函数(荣腾中)-10:47min

--讲义下载

--拓展知识

-第七章第三节测试题

-连续型分布的似然估计

--连续型分布的似然估计(荣腾中)-07:41min

--讲义下载

--拓展知识

-第七章第四节测试题

-一类离散总体的似然估计

--一类离散型分布的似然估计(荣腾中)-09:51min

--讲义下载

--拓展知识

-第七章第五节测试题

-区间估计

--区间估计(荣腾中)-11:08min

--讲义下载

--拓展知识

-第七章第六节测试题

-讨论

--湖中有多少条鱼?

-第七章测试题

第8章 假设检验

-假设检验的基本原理

--假设检验的基本原理(荣腾中)-13:18min

--讲义下载

--拓展知识

-第八章第一节测试题

-两类错误

--两类错误(荣腾中)-11:37min

--讲义下载

--拓展知识

-第八章第二节测试题

-正态总体均值的检验

--单正态总体均值的假设检验(荣腾中)-12:59min

--讲义下载

--拓展知识

-第八章第三节测试题

-正态总体方差的检验

--单正态总体方差的假设检验(荣腾中)-09:25min

--讲义下载

--拓展知识

-第八章第四节测试题

-卡方拟合检验

--卡方拟合检验(刘琼荪)-08:37min

--讲义加载

--拓展知识

-第八章第五节测试题

-讨论

--有没有第II类错误?

-第八章测试题

第9章 回归分析

-一元线性回归(最小二乘估计)

--一元线性回归—最小二乘估计(黎雅莲)-11:10min

--讲义下载

--拓展知识

-第九章第一节测试题

-一元线性回归(相关系数检验)

--相关系数检验(黎雅莲)-08:42min

--讲义下载

--拓展知识

-第九章第二节测试题

-讨论

--火灾损失的因素

-第九章测试题

拓展知识笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。