多元统计分析
由于脂质组数据具有多维且某些变量间高度相关的特点,运用传统的单变量分析无法快速、充分、准确地挖掘数据内潜在的信息。因此在分析脂质组数据需要运用化学计量学原理和多元统计的方法,对采集的多维数据进行降维和归类分析,从而挖掘提炼出最有用的信息。

标准化处理
通常,在对脂质组学数据进行多元统计分析之前, 需要将数据进行适当权重转换,即标准化(scaling)处理。目前脂质组学研究常用的数据标准化方式有中心化处理(Mean-centering and not scaling, Ctr)、自适换算(Autoscaling, Mean-centering and scaled to unit variance, UV)、帕莱托换算(Pareto scaling,Mean-centering and scaled to pareto variance,Par)等。
本实验在多元统计分析前对数据进行帕莱托(Par) 换算处理,以获得更加可靠且直观的结果。

具体分析方法
本分析中使用的多元统计分析(R语言ropls包[1])方法有:

  1. 主成分分析 (Principal Component Analysis, PCA):为非监督的学习方法,即在不给定样本分组信息的情况下对训练样本进行学习,反映了脂质组数据原始状态。
  2. 偏最小二乘判别分析 (Partial Least Squares-Discriminant Analysis, PLS-DA):有监督的学习方法,即在给定样本分组信息的情况下对训练样本进行学习,PLS-DA 既分解自变量X 矩阵也分解应变量Y 矩阵,并在分解时利用其协方差信息,降维效果较PCA能够更高效的提取组间变异信息。实际中,PLS-DA 得分图常用来直观地展示模型的分类效果,各组样品分离程度越大,说明分组效果越显著。
  3. 正交-偏最小二乘判别分析 (Orthogonal Partial Least Squares Discriminant Analysis, OPLS-DA):有监督的学习方法,是PLS-DA 的扩展,即首先使用正交信号校正技术,将X 矩阵信息分解成与Y 相关和不相关的两类信息,然后过滤掉与分组无关的信息,相关的信息主要集中在第一个预测成分。
三种多元统计方法不同点
PCA分析:模型无外加因素自我进行分析,反映了脂质组数据原始状态。
PLS-DA分析:与PCA只有一个数据集不同,PLS-DA在分析时必须对样品进行指定并分组,降维效果较PCA能够更高效的提取组间变异信息。
OPLS-DA分析:过滤掉与分类无关的信息,进行数据分析。
如果PCA数据分析很准确,那么PLS-DA、OPLS-DA分析的分组情况则更为精准。