1. 经过数据库注释得到包括保留时间(retention time,rt)、保留指数(Retention Index,RI)及峰面积(intensity)等信息的数据矩阵。
  2. 对原始数据中的缺失值进行模拟(missing value recoding),数值模拟方法为最小值二分之一法进行补空。
  3. 为使不同量级的数据能够进行比较,对数据进行峰面积的 总峰面积归一化(total peak area normalization) 。