摘要:不同類型或者同一類型不同型號的近紅外光譜分析儀器,掃描相同樣品得到的近紅外光譜數據,都存在著差異性。這會對測量的光譜產生影響,進而導致所建立的光譜多元校正模型在不同儀器上不能共享。模型轉移是解決分析儀器或分析方法通用性的關鍵技術。近紅外光譜受測量儀器或測量條件的影響較大,模型轉移對近紅外光譜技術的實際應用尤為重要。在實際使用過程中,由于各種因素導致無法同時使用同一品牌型號的設備,為便于操作和使用,要使在一臺光譜儀器上建立的光譜多元校正模型可以有效的應用到其他新的光譜儀器上或者新的實驗條件下,針對這種情況,本次研究設計了在不同型號的傅立葉變換近紅外光譜儀上的模型轉移。
關鍵詞:近紅外光譜儀;傅立葉變換;模型轉移
?1 實驗材料
1.1. 實驗儀器
主儀器:Thermo Antaris II 傅立葉變換近紅外光譜儀(以下簡稱Thermo)
從儀器:QuasIR 3000 傅立葉變換近紅外光譜儀(以下簡稱Q3000)
?
1.2. 實驗樣品
1.2.1. 樣品
具有代表性的煙葉樣品。其中包含初烤煙:130個樣品,復烤煙:63個樣品。
1.2.2. 光譜采集參數?
掃描次數:64次,分辨率:8,掃描波段:4000 -10000cm-1,每個樣品掃描1次
1.2.3. 校正集與驗證集
通過KS算法(Kennard-Stone,一種樣本挑選方法——利用樣品原始光譜或者光譜主成分之間的歐式距離來選擇標準化樣品,是一種比較常用的方法),將樣品分為校正集和驗證集。校正集的樣品用于計算兩臺儀器之間的系統偏差(初烤煙的校正集樣品還用于建立定量模型),驗證集樣品用于驗證模型的預測效果。校正集和驗證集樣品的數量如下表所示。
表1-1-1 校正集與驗證集樣品分布
校正集 | 驗證集 | 樣品總數 | |
初烤 | 110 | 20 | 130 |
復烤 | 43 | 20 | 63 |
2 實驗方法
2.1. 系統偏差校正法
模型傳遞:將原始的主機模型,直接用來預測各臺儀器掃描的樣品光譜,并對比其預測結果。如果預測值與參考值之間出現較為明顯的系統偏差(bias),則以該bias對其預測結果進行校正。
2.2. 模型優化方法
添加部分新光譜和參考值至原模型中,重新優化原模型。考慮到Thermo所建模型是多家復烤廠共用的情況,故不優化原模型,直接建立Q3000儀器的定量模型。
2.3. 模型評價方法
2.3.1. 絕對偏差
以樣品的實驗室化學值作為參考,各臺儀器的預測值分別于參考值對比,兩者之間的差值就稱為絕對偏差。本實驗中以Thermo儀器的預測值作為參考值。
2.3.2. 相對偏差
同上,以樣品的實驗室化學值作為參考,將絕對偏差的數值除以參考值,并乘以百分比,就得到相對偏差。本實驗中以Thermo儀器的預測值作為參考值。
2.3.3. 系統偏差(bias)
(1)定義:偏差—bias,反映的是平均預測值與參考值之間的差異情況。
(2)作用:由于各臺儀器的預測值與參考值之間,都存在一定程度的偏差,為了消除系統偏差,會對原始數據的預測值進行校正,扣除偏差值,改進預測效果。
(3)算法:首先計算預測值與參考值之間的偏差,然后計算所有樣品的偏差值的平均值,這個平均值就是該模型的系統偏差(bias)。
(4)驗證:為了驗證每臺儀器產生的偏差值是否恒定,另外選擇驗證集的樣品進行驗證。檢查該儀器的bias是否適用于驗證集樣品的預測值。
2.3.4. RMSEP
預測均方根誤差(root mean square error of prediction—RMSEP)值:是計算模型得出的預測值與參考值之間的誤差平方和的均方根值,對于同一批次樣本,模型RMSEP值越小說明模型準確性越高。 SEP :校正偏差后的預測誤差。
3 結果與分析
3.1. 系統偏差校正法的結果
偏差—Bias:偏差又可分為隨機偏差和系統偏差。隨機偏差是模型預測存在的差異,無法通過扣除平均偏差來改進預測效果的;而系統偏差可能是樣品來源、儀器等引起的,可以通過加或減去偏差來明顯改進預測效果。本次實驗以Thermo儀器的預測值作為參考值進行對比計算。
3.1.1. 初烤煙
將收集到的初烤煙樣品,在兩臺儀器上同時掃樣,掃描參數設置相同。調用Thermo建立的初烤煙原始模型,分別預測Thermo儀器掃描的樣品光譜和Q3000儀器掃描的樣品光譜,對比分析各個指標的預測值之間的偏差情況。
如前面所述,通過分析校正集的110個樣品,計算兩臺儀器之間的系統偏差。然后再調用驗證集的樣品,進一步驗證模型的預測效果。以Thermo預測值作為參考,Q3000預測值與之對比,計算得到兩臺儀器的系統偏差(bias),各個組分的系統偏差值見表3-1-1, 其中110個樣品的詳細預測值可參考excel表格。
? ? ? ? ? ? ? ??表3-1-1 初烤煙模型的系統偏差
煙堿 | 總糖 | 還原糖 | 總氮 | 鉀 | 氯 | |
bias | 0.04 | 0.62 | -1.29 | -0.06 | -0.44 | 0.07 |
為進一步驗證系統偏差對預測值的影響,調用Thermo原始模型,分析20個外部驗證集樣品,并統計扣除系統偏差前、后的預測情況。扣除系統偏差后,無論是校正集樣品還是驗證集樣品,其預測結果都更接近Thermo儀器的預測值。各個組分的相對偏差、絕對偏差,以及RMSEP都有所改善。
? ? ? ? ? ? 表3-1-2 初烤煙模型扣除bias前、后的相對偏差(平均值)統計
樣品數量 | 煙堿 | 總糖 | 還原糖 | 總氮 | 鉀(絕對偏差) | 氯(絕對偏差) |
校正集 | 2.344 | 2.354 | 4.992 | 2.786 | -0.438 | 0.074 |
校正集-bias | 1.864 | 1.464 | 1.583 | 1.916 | 0.000 | 0.000 |
驗證集 | 2.655 | 2.936 | 4.339 | 2.826 | -0.433 | 0.081 |
驗證集-bias | 1.891 | 1.479 | 1.641 | 1.925 | 0.007 | 0.001 |
? ? ? ? ? ? ? ? ? ? 表3-1-3 初烤煙模型扣除bias前、后的RMSEP統計
校正集 | 驗證集 | |||
扣除bias前 | 扣除bias后 | 扣除bias前 | 扣除bias后 | |
煙堿 | 0.066 | 0.049 | 0.074 | 0.060 |
總糖 | 0.892 | 0.649 | 1.066 | 0.469 |
還原糖 | 1.386 | 0.509 | 1.217 | 0.502 |
總氮 | 0.076 | 0.051 | 0.087 | 0.058 |
鉀 | 0.466 | 0.160 | 0.451 | 0.128 |
氯 | 0.098 | 0.065 | 0.092 | 0.046 |
從上表可以看出,兩臺儀器之間存在系統偏差,且偏差值較為穩定。通過扣除系統偏差(bias),各組分的相對偏差(或絕對偏差)值變小,RMSEP也變小。
對于驗證集樣品而言,煙堿相對偏差從2.655降為1.891;總糖的相對偏差從2.936變為1.479;還原糖的相對偏差從4.339降為1.641;總氮的相對偏差從2.826變為1.925,鉀的偏差平均值從-0.433變為0.007,氯的偏差平均值從0.081變為0.001。
同上,驗證集樣品的RMSEP也有所改善,扣除bias以后,煙堿從0.074降為0.060;總糖從1.066變為0.469;還原糖從1.217降為0.502;總氮從0.087變為0.058,鉀從0.451變為0.128,氯從0.092變為0.046。
說明Q3000的預測值與Thermo的預測值逐漸接近,扣除bias后提高了初烤煙模型預測的準確性。
3.1.2. 復烤煙
復烤煙樣品的掃描情況與初烤煙類似,都在Thermo和Q3000儀器上同時掃描,掃描參數設置相同。調用Thermo建立的復烤煙原始模型,分別預測Thermo儀器掃描的樣品光譜和Q3000儀器掃描的樣品光譜,對比分析各個指標的預測值之間的偏差情況。
如前面所述,通過分析校正集的43個樣品,計算兩臺儀器之間的系統偏差。然后再調用驗證集的樣品,進一步驗證模型的預測效果。以Thermo預測值作為參考,Q3000預測值與之對比,計算得到兩臺儀器的系統偏差(bias),各個組分的系統偏差值見表3-1-4, 其中43個校正集樣品的詳細預測值見excel表格。
? ? ? ? ? ? ? ? ? ? ? ? ?表3-1-4 復烤煙模型的系統偏差
煙堿 | 總糖 | 還原糖 | 總氮 | 鉀 | 氯 | |
bias | 0.09 | -0.57 | -0.68 | 0.08 | -0.15 | 0.02 |
為進一步驗證系統偏差對預測值的影響,調用Thermo原始模型,分析20個外部驗證集樣品,并統計扣除系統偏差前、后的預測情況。扣除系統偏差后,無論是校正集樣品還是驗證集樣品,其預測結果都更接近Thermo儀器的預測值。各個組分的相對偏差、絕對偏差,以及RMSEP都有所改善。
? ? ? ?表3-1-5 復烤煙模型扣除bias前、后的相對偏差(平均值)統計
樣品數量 | 煙堿 | 總糖 | 還原糖 | 總氮 | 鉀(絕對偏差) | 氯(絕對偏差) |
校正集 | 4.763 | 1.527 | 2.411 | 4.409 | -0.152 | 0.020 |
校正集-bias | 2.167 | 0.582 | 0.820 | 0.601 | 0.000 | 0.020 |
驗證集 | 4.313 | 1.101 | 2.082 | 4.483 | -0.154 | 0.015 |
驗證集-bias | 1.992 | 0.524 | 0.578 | 0.778 | -0.003 | 0.015 |
表3-1-6 復烤煙模型扣除bias前、后的RMSEP統計
校正集 | 驗證集 | |||
扣除bias前 | 扣除bias后 | 扣除bias前 | 扣除bias后 | |
煙堿 | 0.099 | 0.050 | 0.095 | 0.052 |
總糖 | 0.633 | 0.271 | 0.468 | 0.238 |
還原糖 | 0.740 | 0.289 | 0.624 | 0.210 |
總氮 | 0.083 | 0.015 | 0.086 | 0.019 |
鉀 | 0.163 | 0.059 | 0.159 | 0.043 |
氯 | 0.034 | 0.028 | 0.031 | 0.028 |
從表中可以看出,兩臺儀器之間存在系統偏差,且偏差值較為穩定。通過扣除系統偏差(bias),各組分的相對偏差(或絕對偏差)值變小,RMSEP也變小。
對于驗證集樣品而言,煙堿相對偏差從4.313降為1.992;總糖的相對偏差從1.101變為0.524;還原糖的相對偏差從2.082降為0.578;總氮的相對偏差從4.483變為0.778,鉀的絕對偏差從-0.154變為-0.003,氯的絕對偏差平均值沒有變化。
同上,驗證集樣品的RMSEP也有所改善,扣除bias以后,煙堿從0.095降為0.052;總糖從0.468變為0.238;還原糖從0.624降為0.210;總氮從0.086變為0.019,鉀從0.159變為0.043,氯從0.031變為0.028。
說明Q3000的預測值與Thermo的預測值逐漸接近,扣除bias后提高了復烤煙模型預測的準確性。
3.2. 模型優化方法的結果
除了上述扣除系統偏差的方法外,還可以建立Q3000儀器的獨立模型。由于復烤煙的樣品數量較少,本實驗只建立了初烤煙的定量模型。初烤煙樣品一共有130個,所有樣品均在Q3000儀器上掃樣。通過KS算法挑選110個樣品作為校正集,20個樣品作為外部驗證集,以下所處理的光譜均為Q3000儀器的掃描光譜數據。然后以Thermo預測值作為參考值,建立初烤煙6個組分的定量模型,其模型指標值與Thermo原始模型的指標值如下表所示。
? ? ? ? ?表3-2-1 Thermo 模型 vs Q3000模型的指標值
模型名稱 | RMSECV | R2 | 維數 | 建模光譜數 |
煙堿-原模型 | 0.083 | 0.996 | 18 | 1193 |
煙堿-Q3000模型 | 0.064 | 0.991 | 14 | 110 |
總糖-原模型 | 0.828 | 0.994 | 18 | 910 |
總糖-Q3000模型 | 0.429 | 0.990 | 14 | 110 |
還原糖-原模型 | 0.745 | 0.992 | 19 | 916 |
還原糖-Q3000模型 | 0.391 | 0.989 | 14 | 110 |
總氮-原模型 | 0.070 | 0.990 | 18 | 813 |
總氮-Q3000模型 | 0.030 | 0.993 | 15 | 110 |
鉀-原模型 | 0.124 | 0.977 | 22 | 1002 |
鉀-Q3000模型 | 0.125 | 0.867 | 14 | 110 |
氯-原模型 | 0.054 | 0.982 | 20 | 913 |
氯-Q3000模型 | 0.052 | 0.979 | 14 | 110 |
從表3-2-1可以看出,Q3000儀器上掃描的初烤煙光譜,以Thermo預測值作為參考值所建立的初烤煙模型,建模效果接近原模型,部分優于原模型。RMSECV值明顯減小,說明樣品的偏差值變小,進一步說明樣品的預測值逐漸接近Thermo預測值。
本實驗中用KS算法挑選了驗證集樣品,分別調用Thermo原始模型和Q3000模型,預測這20個樣品,并以Thermo的預測值作為參考,統計了各個組分的相對偏差平均值的情況,見表3-2-2。
? ? ? ? ?表3-2-2 Q3000模型vsThermo模型預測驗證集樣品的相對偏差統計表
模型名稱 | 煙堿 | 總糖 | 還原糖 | 總氮 | 鉀 | 氯 |
Q3000模型 | 2.696 | 1.308 | 1.198 | 1.075 | -0.026 | 0.001 |
Thermo模型-bias | 2.655 | 2.936 | 4.339 | 2.826 | -0.433 | 0.081 |
Thermo原模型扣除bias | 1.891 | 1.479 | 1.641 | 1.925 | 0.007 | 0.001 |
由表3-2-2中數據分析可知, Q3000儀器建立的初烤煙模型,其預測結果接近Thermo原模型的預測結果,部分優于原模型。后期可繼續在Q3000儀器上掃描樣品,收集建模數據,不斷優化、更新初烤煙模型,使得模型的預測結果更準確。
4 結論
1、 Thermo近紅外光譜儀與Q3000近紅外光譜儀都屬于傅立葉變換型儀器,Thermo儀器建立的模型可以直接應用于與其原理大同小異的Q3000儀器上。盡管各個組分的預測值存在系統偏差,但通過扣除系統偏差,兩臺儀器相同樣品的各組分的預測值接近,達到模型轉移的要求。
2、在Q3000儀器上掃描煙葉樣品,重新建立定量模型,新模型對Q3000儀器的預測值,同樣接近Thermo儀器的預測值。
綜上所述,通過上述兩種方法,既能實現Thermo儀器的原始模型轉移至Q3000儀器上,還能建立Q3000儀器的定量模型,其模型預測效果接近原模型。外部驗證集樣品的預測結果已能達到檢測誤差的要求;轉移后的模型,已能用于實際生產檢測中。
致謝:本研究得到了四川維斯派克科技有限公司的設備和技術支持,在此表示感謝。
參考文獻
【1】張進;蔡文生;邵學廣《近紅外光譜模型轉移新算法》[J]
篤行致遠 2024中國煙草行業發展觀察