由于代谢组数据具有多维且某些变量间高度相关的特点,运用传统的单变量分析无法快速、充分、准确地挖掘数据内潜在的信息。因此在分析代谢组数据需要运用化学计量学原理和多元统计的方法,对采集的多维数据进行降维和归类分析,从而挖掘提炼出最有用的信息。
标准化处理
通常,在对代谢组学数据进行多元统计分析之前, 需要将数据进行适当权重转换,即标准化(scaling)处理。目前代谢组学研究常用的数据标准化方式有中心化处理(Mean-centering and not scaling, Ctr)、自适换算(Autoscaling, Mean-centering and scaled to unit variance, UV)、帕莱托换算(Pareto scaling,Mean-centering and scaled to pareto variance,Par)等。
本实验在多元统计分析前对数据进行自适(uv)换算处理,以获得更加可靠且直观的结果。
具体分析方法
本分析中使用的多元统计分析(R语言ropls包[1])方法有:
- 主成分分析 (Principal Component Analysis, PCA)
- 偏最小二乘判别分析 (Partial Least Squares-Discriminant Analysis, PLS-DA)
- 正交-偏最小二乘判别分析 (Orthogonal Partial Least Squares Discriminant Analysis, OPLS-DA)