主成分分析(Principal Component Analysis,PCA)将代谢物变量按一定的权重通过线性组合后产生新的特征变量,通过主要新变量(主成分)对各组数据进行归类。作为无监督学习方法,得到的PCA模型反映了代谢组数据的原始状态,有利于掌握数据的整体情况,尤其是有利于发现和去除重复性差的样本(离群样本)或异常样本,并提高模型的准确性。
采用 PCA 方法,观察样本之间的总体分布趋势。从PCA得分图可观察样本的聚集、离散程度。样本分布点越靠近,说明这些样本的组成和浓度越接近;反之,样本点越远离,其差异越大。模型的交叉验证主要参考R2X参数,表示模型的可解释度。通常情况下,R2高于0.5较好。