代谢组学数据分析中另一种常用的方法是正交-偏最小二乘判别分析(Orthogonal Projections to Latent Structures Discriminant Analysis, OPLS-DA),为PLS-DA的扩展。相比于PLS-DA,该方法可以在不降低模型预测能力的前提下,有效减少模型的复杂性和增强模型的解释能力,从而最大程度查看组间差异。
OPLS-DA使用正交信号校正技术,将X矩阵信息分解成与Y相关和不相关的两类信息,然后过滤掉与分类无关的信息,相关的信息主要集中在第一个预测成分。
与PLS-DA模型相同,OPLS-DA同样可以用R2X、R2Y、Q2和OPLS-DA得分图来评价模型的分类效果。
通常,根据VIP(Variable Importance for the Projection)值来说明变量(特征峰)能解释X数据集和关联Y数据集的重要性。所有VIP值的平方之和与模型中的变量总数相等,因此,其平均值为1[2]。
当某个变量的VIP>1时,说明该变量是重要的——通常将此作为潜在生物标记物的筛选条件之一。
详细PLS-DA模型验证参数:
pre | ort | R2X(cum) | R2Y(cum) | Q2(cum) | |
---|---|---|---|---|---|
Z vs M | 1 | 1 | 0.228 | 0.994 | 0.688 |
Z vs X | 1 | 1 | 0.262 | 0.995 | 0.848 |
Z vs L | 1 | 1 | 0.294 | 0.996 | 0.93 |
Z vs H | 1 | 1 | 0.348 | 0.998 | 0.967 |
Z vs A | 1 | 1 | 0.354 | 0.994 | 0.934 |
M vs X | 1 | 1 | 0.267 | 0.996 | 0.721 |
M vs L | 1 | 1 | 0.275 | 0.998 | 0.915 |
M vs H | 1 | 1 | 0.325 | 0.999 | 0.934 |
M vs A | 1 | 1 | 0.285 | 0.998 | 0.915 |
X vs L | 1 | 1 | 0.256 | 0.996 | 0.859 |
X vs H | 1 | 1 | 0.231 | 0.995 | 0.812 |
X vs A | 1 | 1 | 0.224 | 0.987 | 0.584 |
L vs H | 1 | 1 | 0.269 | 0.996 | 0.872 |
L vs A | 1 | 2 | 0.392 | 0.996 | 0.694 |
H vs A | 1 | 1 | 0.238 | 0.991 | 0.775 |
M vs X vs Z | 1 | 2 | 0.235 | 0.995 | 0.624 |
L vs M vs Z | 1 | 1 | 0.226 | 0.99 | 0.872 |
H vs M vs Z | 1 | 1 | 0.293 | 0.984 | 0.907 |
A vs M vs Z | 1 | 1 | 0.238 | 0.989 | 0.892 |
L vs M vs X vs Z | 1 | 2 | 0.252 | 0.99 | 0.776 |
H vs M vs X vs Z | 1 | 1 | 0.234 | 0.928 | 0.764 |
A vs M vs X vs Z | 1 | 3 | 0.326 | 0.997 | 0.721 |
H vs L vs M vs X vs Z | 1 | 2 | 0.241 | 0.989 | 0.801 |
A vs H vs M vs X vs Z | 1 | 2 | 0.253 | 0.985 | 0.737 |
A vs L vs M vs X vs Z | 1 | 2 | 0.234 | 0.988 | 0.719 |
A vs H vs L vs M vs X vs Z | 1 | 2 | 0.209 | 0.981 | 0.71 |
![](img/down.png)
注:pre,主成分数;R2X,模型(对X变量数据集)可解释度;R2Y,模型(对Y变量数据集)可解释度;Q2,模型可预 测度;
![](../files/MS/positive/3-group/Z vs M/OPLS-DA/OPLS-DA_score.png)
图:OPLS-DA得分图