当前课程知识点:Computer-Aided Drug Design > Chapter three: The present life of CADD > 3.2 QSAR > 3.2.3 The quantitative structure-activity relationship methodology(2)
返回《Computer-Aided Drug Design》慕课在线视频课程列表
返回《Computer-Aided Drug Design》慕课在线视频列表
同学们
上节课我们讲解了一些关于数据库
和参数的方法学知识点
那这节课我们将接着讲解
在QSAR模型的内部验证
我们需要注意哪些概念和知识要点呢
那么接下来我们会有些公式展示
这个同学们稍作了解
关键是掌握概念
以便后期软件操作
内部验证首先是从研究的化合物中
挑选出具有合理特征
和数量的化合物组成训练集
也就是我们说的training set
用来建立模型
那模型建立好后
我们要确定内部验证的方法学
有很多内部检验的方法
可以用来估测一个模型的拟合能力
稳定性和内部预测能力
如拟和相关系数
交互检验
Y 随机
sample法和各种残差表示方式
下面将一一讲解各个检验方法
第一个检验方法
也就是拟合相关系数中
有三个参数
一个是相关系数R
标准偏差S和F检验值
这三个值
其中R
F越大
s越小
表明模型的拟合能力越强
那么第二种类型是什么呢
就是交互检验
交互检验又有5种类型
分别为留一法简称LOO
也就是leave-one-out
也就是依次从N个样本中抽出1个样本
用剩下的N-1个样本来建立构效关系模型
然后用建立的模型预测抽取出来的1个样本的活性
重复这个操作
直到所有样本都被抽取和预测
那么计算预测误差的平方和PRESS
和交互检验相关系数rcv
公式如图所示
第二个方式是留组法
它是Leave-many–out或者是Leave-group-out
它是根据数据量的大小
把数据集分成2到10个组
G=2-10
每一组包含化合物数目基本相同
每次抽取一组作为临时的测试集
用剩下的化合物建立模型对测试集进行预测
那么对于大型数据
只要保证剩余的临时训练集
能够得到有意义的模型
每次抽取的化合物可以任意多
但对于中小型数据
比如n<50
如果每次抽取太多的化合物出来
会导致什么导致剩余化合物
就很难包含所有的重要结构信息
从而得不到好的QSAR 模型
有文献已经证明对于只包含
30到50个化合物的小数据集
每次抽出30%左右的化合物
是比较理想的数字
第3种方法就是自助法
也就是Bootstrapping
其思想就是对于含有N个化合物的训练集来说
随机抽取若M个化合物作为测试集
然后有放回抽样从N-M个化合物中
随机选择M个化合物填充到训练集中
使训练集化合物数目保持在N个
这样
就会保持有些化合物就会在训练集中
出现两次甚至多次
此时用重组后的训练集
建立模型预测M个化合物的生物活性
计算M个化合物的预测
残差的平方和也就是PRESS
这个过程重复若干次
可以得到上千个PRESS值
最后将PRESS值求和
取平均值进行计算
还有一种Out-of-train
也就是OOT法
它实际上和Bootstrapping的区别在于什么
就在抽取M个化合物作为测试集后
OOT并不会随机在N-M个化合物中
选择一些化合物进行重复
以保证训练集化合物数目保持不变
只是用N-M个化合物
直接建立QSAR模型并进行活性预测
说完前两种内部检验方法
还有一种
第三种叫Sample法
它就是指使用样本距离偏最小二乘法
SAMPLS来确定留一法的交叉验证r2
这是默克公司开发的一种非常快速的方法
是交叉验证的选择方法
它的速度使列过滤不必要
所以当选择SAMPLS时
column filtering选项被禁用
但是
只有当底层描述符变量也就是实际列的
数量大大超过行数时
才能实现速度上的提高
这几乎总是CoMFA字段列的情况
其中每个标称列可能代表数千个变量
字段中的每个格点对应一个变量
最后一个交互检验就是随机模型检验
也就是Stochastic Model Validation
也就简称SMV
它是另一个新的检验技术
可以用来估测所有数据
对于模型建模能力和交互预测能力的影响
这种技术也是要产生许多
临时的训练集和测试集
它的Nv值一般等于1
或者是many
但其旨在穷举化合物作为临时训练集
也就是N-Nv和临时测试集Nv
所有可能的组合
即SMV 会给出
N!/(N-Nv)!的阶层
有这么多种可能的组合
也就会建立这么多的模型
其实不难想象
这种方法实际上是什么
就是LOO 和LMO 的结合
最后我们再一起学一种检验方法
则是Y随机检验
将响应值如生物活性随机打乱顺序
而保持描述符的顺序不变
从而建立新的QSAR模型
该过程重复若干次后
与原来模型的统计信息进行比较
希望所得到的平均R2和Q2等比较低
也就是如果R2>0.5
说明这个模型有可能就有随机相关的嫌疑
该QSAR 模型的可靠性是值得怀疑的
该方法是检验模型
是否存在偶然相关的有力工具
内部验证环节就讲到这里
下节课我们就来一起学习外部验证和模型建立
谢谢同学们
-1.1 CADD-Where am I coming from?
--1.1 CADD-Where am I coming from?
-1.2 CADD-My Value
-1.3 CADD-Application of CADD in the School of Pharmacy
--1.3 CADD-Application of CADD in the School of Pharmacy
-1.4 CADD-Friendship with undergraduates
--1.4 CADD-Friendship with undergraduates
-Unit test 1
-2.1 The mystery of drug structure
--2.1 The mystery of drug structure
-2.2 Drug activity decryption-receptors and ligands
--2.2 Drug activity decryption-receptors and ligands
-2.3 The magical journey of drug discovery
--2.3 The magical journey of drug discovery
-Unit test 2
-3.1 Brief introduction of CADD's main methods
--3.1 Brief introduction of CADD's main methods
-3.2 QSAR
--3.2.1 The quantitative structure-activity relationship theory
--3.2.2 The quantitative structure-activity relationship methodology(1)
--3.2.3 The quantitative structure-activity relationship methodology(2)
--3.2.4 The quantitative structure-activity relationship methodology(3)
--3.2.5 The operation of quantitative structure-activity relationship (1)
--3.2.6 The operation of quantitative structure-activity relationship (2)
--3.2.7 The operation of quantitative structure-activity relationship (3)
-3.3 Molecular docking
--3.3.1 The molecular docking theory
--3.3.2 The molecular docking methodology
--3.3.3 The operation of molecular docking(1)
--3.3.4 The operation of molecular docking(2)
--3.3.5 The operation of molecular docking(3)
-3.4 Pharmacophore
--3.4.1 The pharmacophore theory
--3.4.2 The pharmacophore methodology
--3.4.3 The operation of pharmacophore(1)
--3.4.4 The operation of pharmacophore(2)
--3.4.5 The operation of pharmacophore(3)
--3.4.6 The operation of pharmacophore(4)
-3.5 Homology modeling
--3.5.1 The homology modeling theory
--3.5.2 The homology modeling methodology(1)
--3.5.3 The homology modeling methodology(2)
--3.5.4 The operation of homology modeling(1)
--3.5.5 The operation of homology modeling(2)
--3.5.6 The operation of homology modeling(3)
--3.5.7 The operation of homology modeling(4)
--3.5.8 The operation of homology modeling(5)
-Unit test 3
-4.1 Comprehensive case I
--4.1.1 Comprehensive case I-Homology modeling
--4.1.2 Comprehensive case I-Operation
-4.2 Comprehensive case II
--4.2.1 Comprehensive case II –QSAR
--4.2.2 Comprehensive case II -Operation
-4.3 Comprehensive case III
--4.3.1 Comprehensive case III -3D-QSAR and molecular docking
--4.3.2 Comprehensive case III -Operation(1)
--4.3.3 Comprehensive case III -Operation(2)
-4.4 Comprehensive case IV
--4.4.1 Comprehensive case IV -Pharmacophore
--4.4.2 Comprehensive case IV-Parameter explanation
--4.4.3 Comprehensive case IV -Operation
--4.4.4 Comprehensive case IV -Analysis and interpretation
-Unit test 4