3.2.3 The quantitative structure-activity relationship methodology（2）慕课视频播放-Computer-Aided Drug Design-MOOC慕课视频教程-柠檬大学

同学们

上节课我们讲解了一些关于数据库

和参数的方法学知识点

那这节课我们将接着讲解

在QSAR模型的内部验证

我们需要注意哪些概念和知识要点呢

那么接下来我们会有些公式展示

这个同学们稍作了解

关键是掌握概念

以便后期软件操作

内部验证首先是从研究的化合物中

挑选出具有合理特征

和数量的化合物组成训练集

也就是我们说的training set

用来建立模型

那模型建立好后

我们要确定内部验证的方法学

有很多内部检验的方法

可以用来估测一个模型的拟合能力

稳定性和内部预测能力

如拟和相关系数

交互检验

Y 随机

sample法和各种残差表示方式

下面将一一讲解各个检验方法

第一个检验方法

也就是拟合相关系数中

有三个参数

一个是相关系数R

标准偏差S和F检验值

这三个值

其中R

F越大

s越小

表明模型的拟合能力越强

那么第二种类型是什么呢

就是交互检验

交互检验又有5种类型

分别为留一法简称LOO

也就是leave-one-out

也就是依次从N个样本中抽出1个样本

用剩下的N-1个样本来建立构效关系模型

然后用建立的模型预测抽取出来的1个样本的活性

重复这个操作

直到所有样本都被抽取和预测

那么计算预测误差的平方和PRESS

和交互检验相关系数rcv

公式如图所示

第二个方式是留组法

它是Leave-many–out或者是Leave-group-out

它是根据数据量的大小

把数据集分成2到10个组

G=2-10

每一组包含化合物数目基本相同

每次抽取一组作为临时的测试集

用剩下的化合物建立模型对测试集进行预测

那么对于大型数据

只要保证剩余的临时训练集

能够得到有意义的模型

每次抽取的化合物可以任意多

但对于中小型数据

比如n<50

如果每次抽取太多的化合物出来

会导致什么导致剩余化合物

就很难包含所有的重要结构信息

从而得不到好的QSAR 模型

有文献已经证明对于只包含

30到50个化合物的小数据集

每次抽出30％左右的化合物

是比较理想的数字

第3种方法就是自助法

也就是Bootstrapping

其思想就是对于含有N个化合物的训练集来说

随机抽取若M个化合物作为测试集

然后有放回抽样从N-M个化合物中

随机选择M个化合物填充到训练集中

使训练集化合物数目保持在N个

这样

就会保持有些化合物就会在训练集中

出现两次甚至多次

此时用重组后的训练集

建立模型预测M个化合物的生物活性

计算M个化合物的预测

残差的平方和也就是PRESS

这个过程重复若干次

可以得到上千个PRESS值

最后将PRESS值求和

取平均值进行计算

还有一种Out-of-train

也就是OOT法

它实际上和Bootstrapping的区别在于什么

就在抽取M个化合物作为测试集后

OOT并不会随机在N-M个化合物中

选择一些化合物进行重复

以保证训练集化合物数目保持不变

只是用N-M个化合物

直接建立QSAR模型并进行活性预测

说完前两种内部检验方法

还有一种

第三种叫Sample法

它就是指使用样本距离偏最小二乘法

SAMPLS来确定留一法的交叉验证r2

这是默克公司开发的一种非常快速的方法

是交叉验证的选择方法

它的速度使列过滤不必要

所以当选择SAMPLS时

column filtering选项被禁用

但是

只有当底层描述符变量也就是实际列的

数量大大超过行数时

才能实现速度上的提高

这几乎总是CoMFA字段列的情况

其中每个标称列可能代表数千个变量

字段中的每个格点对应一个变量

最后一个交互检验就是随机模型检验

也就是Stochastic Model Validation

也就简称SMV

它是另一个新的检验技术

可以用来估测所有数据

对于模型建模能力和交互预测能力的影响

这种技术也是要产生许多

临时的训练集和测试集

它的Nv值一般等于1

或者是many

但其旨在穷举化合物作为临时训练集

也就是N-Nv和临时测试集Nv

所有可能的组合

即SMV 会给出

N!/(N-Nv)!的阶层

有这么多种可能的组合

也就会建立这么多的模型

其实不难想象

这种方法实际上是什么

就是LOO 和LMO 的结合

最后我们再一起学一种检验方法

则是Y随机检验

将响应值如生物活性随机打乱顺序

而保持描述符的顺序不变

从而建立新的QSAR模型

该过程重复若干次后

与原来模型的统计信息进行比较

希望所得到的平均R2和Q2等比较低

也就是如果R2>0.5

说明这个模型有可能就有随机相关的嫌疑

该QSAR 模型的可靠性是值得怀疑的

该方法是检验模型

是否存在偶然相关的有力工具

内部验证环节就讲到这里

下节课我们就来一起学习外部验证和模型建立

谢谢同学们

3.2.3 The quantitative structure-activity relationship methodology（2）在线视频

3.2.3 The quantitative structure-activity relationship methodology（2）课程教案、知识点、字幕

Computer-Aided Drug Design课程列表：

Chapter one: The background of CADD

Chapter two: The past life of CADD

Chapter three: The present life of CADD

Chapter four: Comprehensive case analysis

3.2.3 The quantitative structure-activity relationship methodology（2）笔记与讨论

也许你还感兴趣的课程: