首頁 資訊 Grey time series combination model for health warning of physical examination indexes

Grey time series combination model for health warning of physical examination indexes

來源:泰然健康網(wǎng) 時間:2024年11月24日 21:50

摘要: 對于個體健康體檢數(shù)據(jù)而言,傳統(tǒng)的以大樣本為基礎(chǔ)的數(shù)學(xué)模型無法滿足體檢數(shù)據(jù)的建模需求?;趥€體體檢數(shù)據(jù)特征分析,首先構(gòu)建適用于個體體檢指標(biāo)健康預(yù)警的近似非齊次指數(shù)序列的改進(jìn)離散灰色模型。其次,為降低單個模型預(yù)測精度的有限性,利用方差倒數(shù)法為離散灰色模型和差分自回歸移動平均模型賦權(quán)重,在模型誤差平方和達(dá)到最小時取得最佳的權(quán)重值。從而將兩個模型的預(yù)測結(jié)果進(jìn)行組合,實現(xiàn)對健康指標(biāo)的建模與趨勢分析,及時掌握個體健康指標(biāo)的變化并發(fā)現(xiàn)潛在的疾病隱患。預(yù)測模型在實驗數(shù)據(jù)集上的相對模擬誤差與最優(yōu)基準(zhǔn)模型相比有所下降,表明灰色–時序組合模型具有更高的模擬精度,解決了傳統(tǒng)的依據(jù)單次體檢指標(biāo)進(jìn)行靜態(tài)分析的弊端以及單個模型預(yù)測結(jié)果的局限性,更加關(guān)注個體差異,能有效提升健康預(yù)警的效果。

Grey time series combination model for health warning of physical examination indexes

Abstract: For individual health examination data, the traditional mathematical model based on large samples can not meet the modeling requirements of physical examination data. Based on the analysis of the characteristics of individual physical examination data, an improved discrete grey model of approximately non-homogeneous index series suitable for individual physical examination indicator health warning was first constructed. Secondly, in order to reduce the limitation of the prediction accuracy of a single model, the inverse variance method was used to assign weights to the discrete grey model and the differential autoregressive moving average model, and the best weight value was obtained when the sum of squares of the model errors reached the minimum. Thus, the prediction results of the two models were combined to achieve the modeling and trend analysis of health indicators, timely grasp the changes of individual health indicators and discover potential disease hazards. The relative simulation error of the prediction model on the experimental data set decreases in comparison with the optimal benchmark model, which indicates that the grey time series combination model has higher simulation accuracy. The shortcomings of traditional static analysis based on single physical examination indicators and the limitations of single model prediction results are solved. Individual differences are emphasized, and the effect of health warning can be effectively improved.

Key words:grey time series combination model    physical examination index    discrete grey model    differential autoregressive integrated moving average model    health warning    

隨著時代的發(fā)展、社會需求和疾病譜的改變,以預(yù)防為主的大健康理念逐漸深入人心,民眾健康預(yù)防的意識也逐漸增強,定期體檢演變?yōu)橐环N健康生活習(xí)慣和社會趨勢。健康體檢產(chǎn)生的個體體檢數(shù)據(jù),可以幫助醫(yī)生和體檢者分析個體自身生理狀況和潛在的疾病隱患。但是,醫(yī)生對體檢者身體狀況的診斷,或者體檢者對自身健康情況的判斷大多是基于單次體檢結(jié)果的高低對比,無法發(fā)現(xiàn)個體體檢指標(biāo)在不同時期的動態(tài)變化趨勢。因此,分析個體體檢指標(biāo)的發(fā)展規(guī)律和變化趨勢,發(fā)現(xiàn)體檢者的潛在疾病隱患,從而提前采取預(yù)防和治療措施,降低個體未來的患病風(fēng)險,對于保障個體健康具有重大的現(xiàn)實意義。

灰色模型對于“少數(shù)據(jù)”、“貧信息”的樣本具有較高的預(yù)測精度,能夠通過研究對象有限的數(shù)據(jù),挖掘出數(shù)據(jù)發(fā)展規(guī)律和新信息,從而實現(xiàn)對序列未來值的預(yù)測[1-2]。在疾病預(yù)測方面,灰色預(yù)測模型主要用于發(fā)病率、死亡率的預(yù)測[3-4]。而其他典型預(yù)測方法雖然在疾病預(yù)測中發(fā)揮了重要的作用,但是各類模型的適用范圍有所差異。時間序列模型通過將疾病數(shù)據(jù)隨時間推移形成的序列視為一個隨機序列,并用一定的數(shù)學(xué)模型來近似擬合這個序列,常用的時間序列模型為ARIMA(autoregressive integrated moving average model)模型[5-6]?;诟怕收摰鸟R爾可夫鏈模型通常是基于系統(tǒng)現(xiàn)在的狀態(tài)來預(yù)測系統(tǒng)未來可能存在的狀態(tài),例如劉瓊等[2]利用隱馬爾科夫模型對乙肝發(fā)病數(shù)量時間序列進(jìn)行預(yù)測[7]。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,BP神經(jīng)網(wǎng)絡(luò)模型也被大量應(yīng)用于疾病預(yù)測中,并且在疾病預(yù)測中具有較好的識別效果[8-9]。多元回歸模型常用于傳染病發(fā)病率的趨勢預(yù)測,建模過程中應(yīng)用直線或曲線擬合原始傳染病數(shù)據(jù),用數(shù)字和等式來表達(dá)傳染病的流行規(guī)律[10-13]。近年來,國內(nèi)外學(xué)者將灰色模型與其他模型進(jìn)行組合,融合多個模型的優(yōu)勢,開展疾病預(yù)測研究。王永斌等[14]將灰色模型和廣義回歸神經(jīng)網(wǎng)絡(luò)模型相結(jié)合,預(yù)測我國塵肺病發(fā)病人數(shù)。嚴(yán)薇榮等[15]在進(jìn)行傷寒副傷寒發(fā)病率預(yù)測時,將GM(1,1)模型和Markov模型進(jìn)行組合得到新的預(yù)測模型,提高了傳染病發(fā)病率的預(yù)測精度。時冬青等[16]綜合GM(1,1)模型和馬爾可夫鏈進(jìn)行預(yù)測,實驗結(jié)果表明組合模型在職業(yè)病預(yù)測中的高預(yù)測精度。

目前,對于個體體檢指標(biāo)的研究主要集中于兩個方面:一方面是分析個體體檢指標(biāo)對于疾病診斷的影響或?qū)膊〉念A(yù)測價值[17-18];另一方面是在疾病風(fēng)險預(yù)測中,將多個或群體健康體檢指標(biāo)作為預(yù)測特征來預(yù)測疾病發(fā)病率或患病情況[19-20]。然而,針對個體體檢指標(biāo)未來發(fā)展趨勢預(yù)測的研究還較少。通過上述分析可以發(fā)現(xiàn),以上研究大多采用群體健康指標(biāo)數(shù)據(jù)集開展疾病預(yù)測,而對于個體健康體檢指標(biāo)的預(yù)測較少,并且個體健康體檢數(shù)據(jù)的特征也增加了個體健康指標(biāo)預(yù)測的難度。為此,需要構(gòu)建有效的個體健康指標(biāo)預(yù)測模型,以期準(zhǔn)確預(yù)測體檢指標(biāo)未來變化趨勢或范圍,實現(xiàn)個體健康狀況的有效預(yù)警管理。基于上述分析,考慮體檢指標(biāo)數(shù)據(jù)為小樣本數(shù)據(jù),并且更偏向于是一個非齊次指數(shù)序列,為提高模型的泛化性和準(zhǔn)確性,本文構(gòu)建了一個離散灰色模型。同時,為提高預(yù)測精度,將ARIMA模型和灰色模型進(jìn)行組合預(yù)測,從而充分利用各個模型的優(yōu)勢。

1 個體健康體檢指標(biāo)特征分析

隨著人們對于健康和自我保健追求的愈加強烈,健康消費市場迅猛發(fā)展,個人定期健康體檢已成為常態(tài)。個人在醫(yī)療機構(gòu)進(jìn)行體檢,得到各類身體指標(biāo)檢查數(shù)據(jù)。這些具有時間間隔的數(shù)據(jù)匯總后形成了時間序列,對這些時間序列數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和預(yù)測,可以有效地輔助醫(yī)生和患者了解當(dāng)前身體狀況和指標(biāo)的未來變化趨勢,幫助人們提前采取應(yīng)對策略,做好疾病預(yù)防。

由于體檢指標(biāo)時間序列數(shù)據(jù)有其獨有的特征,在構(gòu)建時間序列預(yù)測模型時有必要基于其特征進(jìn)行設(shè)計。以單個體檢指標(biāo)m為例,指標(biāo)m在時間跨度1~n之間的檢查結(jié)果構(gòu)成一個時間序列Xm=(xm(t1),xm(t2),?,xm(tn))。單個體檢指標(biāo)時間序列具有如下特征:

a. 數(shù)據(jù)量小。

隨著時間變化,個人健康狀況受年齡變化、外界環(huán)境等因素影響,使得體檢指標(biāo)具有階段性和時效性。通常來說,極早期的體檢指標(biāo)對于分析個人當(dāng)前身體健康狀況的可用價值較低,許多體檢數(shù)據(jù)集中僅保留體檢者最近6~8年的體檢指標(biāo)數(shù)據(jù)。因此,體檢指標(biāo)時間序列Xm=(xm(t1),xm(t2),?,xm(tn))的樣本數(shù)量非常有限,一般取樣本個數(shù)介于6~10之間。

b. 數(shù)據(jù)的不確定性。

個人體檢指標(biāo)數(shù)值常受到生理狀況、心理變化、外界環(huán)境等多方面因素的影響,甚至由于測量儀器、檢測技術(shù)水平的參差不齊也會導(dǎo)致指標(biāo)數(shù)據(jù)的不準(zhǔn)確。所以個體在進(jìn)行體檢時,總會對異常指標(biāo)進(jìn)行多次“復(fù)查”,將多次體檢結(jié)果的可能值或取值范圍作為最終檢查結(jié)果。這導(dǎo)致了體檢指標(biāo)序列的區(qū)間出現(xiàn)不確定或離散不確定的情況。

c. 時間間隔不一致。

時間序列Xm=(xm(t1),xm(t2),?,xm(tn))的時間間隔計算公式一般為Δt=tk+1?tk,k=1,2,?,n?1,當(dāng)Δt≠常數(shù)時,將時間序列Xm稱為非等時距序列?,F(xiàn)實生活中,由于各種因素導(dǎo)致個體未能按期進(jìn)行健康體檢,從而導(dǎo)致體檢時間序列數(shù)據(jù)集中缺失某一時間段的數(shù)據(jù),出現(xiàn)時間“斷層”問題。

d. 數(shù)據(jù)類型異構(gòu)。

體檢指標(biāo)數(shù)據(jù)類型異構(gòu)是指時間序列Xm中不同體檢指標(biāo)具有不同的數(shù)據(jù)類型。舉例來說,時間序列Xm中可能存在某一元素數(shù)據(jù)類型是一個區(qū)間值,某一元素數(shù)據(jù)類型為離散灰數(shù),還有元素數(shù)據(jù)類型為實數(shù),這就使得Xm具有數(shù)據(jù)類型異構(gòu)的特征。

e. 數(shù)據(jù)具有上下波動性。

體檢指標(biāo)受到自身以及外部等多個因素制約,從而使得單個個體體檢時間序列并非呈現(xiàn)明顯的單調(diào)遞變或恒定不變的規(guī)律,通常是在一定數(shù)值范圍內(nèi)表現(xiàn)出反復(fù)的上下波動的特征。

2 灰色–時序組合預(yù)測模型NDGM-ARIMA2.1 改進(jìn)GM(1,1)模型——NDGM(1,1)

由于體檢指標(biāo)數(shù)據(jù)是一個數(shù)據(jù)量少的小樣本數(shù)據(jù)集,通常數(shù)據(jù)量級在幾至幾十。而灰色模型GM(1,1)對于“少數(shù)據(jù)”、“貧信息”的樣本具有較高的預(yù)測精度。因此,本文考慮使用灰色模型GM(1,1)。GM(1,1)模型是灰色系統(tǒng)理論中經(jīng)典的預(yù)測模型,模型的基本思路是利用原始數(shù)據(jù)得到一組原始數(shù)據(jù)序列,對原始數(shù)據(jù)序列進(jìn)行累加生成新的數(shù)據(jù)序列,以此來削弱原始數(shù)據(jù)的隨機性,突出和增強原始數(shù)據(jù)的規(guī)律性,實現(xiàn)對原始數(shù)據(jù)未來變化規(guī)律的模糊預(yù)測。

GM(1,1)具體實現(xiàn)步驟如下:

步驟 1 設(shè)原始數(shù)據(jù)構(gòu)成的序列為X(0),對原始序列進(jìn)行一次累加生成(1-AGO)得到新的數(shù)據(jù)序列X(1)。

步驟 2 構(gòu)建新生成序列X(1)的緊鄰均值生成序列,記為Z(1)。由此得到GM(1,1)模型的灰色微分方程x(0)(k)+az(1)(k)=b。

步驟3 基于最小二乘原理,可得到參數(shù)a,b滿足的條件為?h=(a,b)T=(BTB)?1BTY,矩陣B是構(gòu)造累加矩陣,向量Y為常數(shù)項向量。

步驟 4 由序列X(0),X(1),Z(1)可得到GM(1,1)模型的白化微分方程,將GM(1,1)模型白化方程的解稱為時間響應(yīng)函數(shù)。

步驟 5 求解得到白化微分方程的時間響應(yīng)序列后,通過累減生成還原得到原始序列為?x(0)(k+1)=?x(1)(k+1)??x(1)(k),即灰色GM(1,1)的預(yù)測方程表達(dá)式,對其進(jìn)行求導(dǎo)還原就可得到序列還原值。

傳統(tǒng)的GM(1,1)模型是用一階微分方程對單個變量實現(xiàn)預(yù)測的模型,其建模過程主要是利用齊次指數(shù)序列來擬合原始數(shù)據(jù)。因此,GM(1,1)模型對于具有近齊次指數(shù)的原始序列具有較好的擬合與預(yù)測性能。但是,現(xiàn)實生活中存在許多不確定因素,絕大部分的時間序列都不符合指數(shù)增長規(guī)律。對于體檢指標(biāo)序列,這類序列由于數(shù)值結(jié)果不確定性大、時間間隔不統(tǒng)一導(dǎo)致的數(shù)值缺失,以及數(shù)據(jù)上下波動等原因,使得體檢指標(biāo)序列更符合近似非齊次指數(shù)序列變化特征。同時,傳統(tǒng)的GM(1,1)模型中參數(shù)估計方程是離散的,模型預(yù)測方程是連續(xù)的,為了解決離散參數(shù)估計和連續(xù)預(yù)測表示之間跳躍所產(chǎn)生的模擬誤差,本文借鑒了謝乃明等[21]提出的離散灰色模型DGM(1,1)基本思想,使改進(jìn)灰色模型的參數(shù)估計和模型預(yù)測都是離散形式。

結(jié)合上述體檢序列特征分析和預(yù)測模型性能分析,為了構(gòu)建適用于體檢指標(biāo)序列的預(yù)測模型,本文構(gòu)建一個近似非齊次指數(shù)序列的離散GM(1,1)模型(non-homogenous discrete grey model),簡寫為NDGM(1,1)模型。

同樣地,設(shè)原始非負(fù)序列為X(0):X(0)=(x(0)(1),x(0)(2),?,x(0)(n))。其中,x(0)(i)?0,i=1,2,?,n。經(jīng)過一次累加生成得到新序列X(1):X(1)=(x(1)(1),x(1)(2),?,x(1)(n)),從而得到離散灰色模型NDGM(1,1)的表達(dá)式為x(1)(t+1)+ax(1)(t)=bt+c,則模型的白化微分方程表達(dá)式為

式中,參數(shù)列?h=(a,b,c)T為NDGM(1,1)模型待求解參數(shù)。

求解NDGM(1,1)模型白化方程的時間響應(yīng)序列,首先公式對應(yīng)的齊次方程為

dx(1)(t)dt+ax(1)(t)=0?dx(1)(t)dt=?ax(1)(t) (2)

解出齊次方程的通解為x(1)(t)=C1e?at。利用常數(shù)變易法,令C1=f(t),則x(1)(t)=f(t)e?at。對x(1)(t)=f(t)e?at兩端同時求導(dǎo)后代入式(2)可得

f′(t)e?at?af(t)e?at=bt+c?ax(1) (3)f(t)=∫(bt+c)eatdt=bateat?ba2eat+caeat+C (5)

將式(5)代入x(1)(t)=C1e?at中,可知

x(1)(t)=bat?ba2+ca+Ce?at (6)

當(dāng)t=1時,可得x(1)(1)=bat?ba2+ca+Ce?a,解出C的表達(dá)式為

C=x(1)(1)?bat+ba2?cae?a (7)

將式(7)代入式(6)得到NDGM(1,1)模型的時間響應(yīng)序列表達(dá)式為

x(1)(t+1)=e?ax(1)(t)+ba(1?e?a)t+(1?e?a)(ca?ba2)+ba (8)

則式(8)經(jīng)過累減還原得到還原式為

?x(0)(t)=?x(1)(t)??x(1)(t?1)=(1?ea)(x(0)(1)?ba+ba2?ca)e?a(t?1)+ba,t=2,3,?,n,? (9)

當(dāng)t=2,3,4,?,n時,?x(0)(t)為模型所得擬合值;當(dāng)t=n+1,n+2,?時,?x(0)(t)為模型所得預(yù)測值。

令α=e?a,β=ba(1?e?a),γ=(1?e?a)(ca?ba2)+ba,則式(8)可表示為

x(1)(t+1)=αx(1)(t)+βt+γ (10)

式(10)的參數(shù)列?C=(α,β,γ)T,由最小二乘法得到參數(shù)的估計值,當(dāng)式(11)所示的誤差平方和達(dá)到最小時可求解出參數(shù)α,β,γ。

S=n?1∑t=1[x(1)(t+1)??αx(1)(t)??βt??γ]2 (11)

參數(shù)列?C=(α,β,γ)T應(yīng)滿足條件(α,β,γ)T=(BTB)?1BTY,其中

B=[x(1)(1)21x(1)(2)31???x(1)(n?1)n1]Y=[x(1)(2)x(1)(3)?x(1)(n)]

a,b,c的估計值分別為

?a=?ln?α,?b=?a?β1??α,?c=?a?γ??b1??α+?b?a (12)

將參數(shù)估計值?a,?b,?c代入式(9)所得的還原式,即可求出原始數(shù)據(jù)序列的模擬值和預(yù)測值。

NDGM(1,1)模型建立后,為了評價模型運行的可行性,需要對模型進(jìn)行精度檢驗,本文利用后殘差檢驗法進(jìn)行檢驗。記原始序列X(0):X(0)=(x(0)(1),x(0)(2),?,x(0)(n))和殘差序列ε(0)=(ε(1),ε(2),?,ε(n))=(x(0)(1)??x(0)(1),x(0)(2)??x(0)(2),?,x(0)(n)??x(0)(n))的方差分別為S21,S22,計算公式分別為

S21=1n?1n∑k=1(x(0)(k)?ˉx(0))2 (13)S22=1n?1n∑k=2(ε(0)(k)?ˉε(0))2 (14)

式中:ˉx(0)表示原始序列的均值,計算公式為ˉx(0)=1nn∑k=1x(0)(k);ˉε(0)為序列殘差均值,且ˉε(0)=1nn∑k=2ε(0)(k)。

后驗殘差檢驗法是利用后驗差比值c和小概率誤差p進(jìn)行檢驗,二者計算方法為

p=P{0.6745S1>|e(0)(k)?ˉe(0)|} (16)

若NDGM(1,1)模型滿足表1所示的模型精度標(biāo)準(zhǔn),則說明構(gòu)建的NDGM(1,1)模型合格。


表 1 灰色預(yù)測模型精度表Table 1 Precision of grey prediction model

2.2 ARIMA模型的構(gòu)建

將時間序列定義為一組按時間先后順序排列的數(shù)據(jù)集合,時間序列預(yù)測就是指利用模型分析和處理時間序列,根據(jù)時間序列呈現(xiàn)出的規(guī)律,構(gòu)建有效的模型對數(shù)據(jù)未來發(fā)展趨勢進(jìn)行預(yù)測。常用于預(yù)測平穩(wěn)時間序列的時間序列模型包括自回歸模型AR(n)、自回歸移動平均模型ARMA(p,q)、差分自回歸移動平均模型ARIMA(p,d,q)。

ARIMA(p,d,q)模型的建模過程為,首先將非平穩(wěn)時間序列經(jīng)處理后轉(zhuǎn)化為平穩(wěn)時間序列,然后將因變量只對其滯后值(階數(shù))以及隨機誤差項的現(xiàn)值和滯后值進(jìn)行回歸分析。ARIMA(p,d,q)模型對于短期時間序列預(yù)測具有較高的預(yù)測精度。其中:AR 表示自回歸;MA 表示移動平均;p,q分別表示 AR ,MA 的階數(shù);d表示差分的階數(shù),一般取值為1階或2階序列達(dá)到穩(wěn)定。ARIMA(p,d,q)模型為

{Φ(B)?dxt=Θ(B)εtE(εt)=0,var(εt)=σ2ε,E(εtεs)=0,s≠tE(xsεt)=0,?s<t (17)

式中:?d=(1?B)d為差分運算;{εt}表示零均值白噪聲序列;Φ(B)=1??1B????pBp,Θ(B)=1?θ1B???θpBp分別表示模型ARIMA(p,d,q)的自回歸系數(shù)多項式和移動平均系數(shù)多項式;B 表示延遲算子,并且滿足Bnxt=xt?n。

ARIMA(p,d,q)模型的建模包括時間序列預(yù)處理、模型識別和定階、模型檢驗、模型驗證及優(yōu)化和模型預(yù)測5個步驟。本文利用Eviews軟件進(jìn)行ARIMA模型確定和指標(biāo)預(yù)測,具體過程如下:

a. 時間序列預(yù)處理。適用于ARIMA(p,d,q)模型的時間序列必須為平穩(wěn)非白噪聲時間序列,對于非平穩(wěn)時間序列,需進(jìn)行數(shù)據(jù)預(yù)處理使原始序列滿足平穩(wěn)化和零均值的條件。將實驗序列數(shù)據(jù)錄入Eviews軟件后,通過繪制原始序列的時序圖來判斷序列的平穩(wěn)性。若序列是非平穩(wěn)狀態(tài),采用取對數(shù)或差分處理等操作進(jìn)行處理,處理完后進(jìn)行ADF單位根檢驗序列平穩(wěn)性。

b. 模型識別和定階。對于模型的識別和定階本質(zhì)上就是確定參數(shù)p,q的值,基于數(shù)據(jù)預(yù)處理后的平穩(wěn)時間序列,計算出實驗數(shù)據(jù)集的自相關(guān)系數(shù)ACF和偏自相關(guān)系數(shù)PACF。對預(yù)處理后的序列通過Eviews軟件的Correlogram得到序列自相關(guān)圖和數(shù)值,采用AIC準(zhǔn)則為預(yù)測模型的階數(shù)p和q取合適的值。

c. 模型檢驗。對識別和定階后的ARIMA模型進(jìn)行參數(shù)估計,模型的檢驗包括參數(shù)估計的顯著性檢驗和殘差序列的隨機性檢驗,即驗證殘差之間的獨立性。確定ARIMA模型各項階數(shù)后,在Eviews中創(chuàng)建估計方程式得到Prob.值,Prob.值若小于5%則模型是顯著的,可靠性較高。

d. 模型的驗證和優(yōu)化。根據(jù)模型檢驗結(jié)果對模型的階數(shù)進(jìn)行調(diào)整和優(yōu)化,使構(gòu)建出的模型滿足顯著性檢驗要求。即若步驟c中得到的模型估計結(jié)果未通過檢驗,則返回修改模型階數(shù)p和q,重新進(jìn)行檢驗。

e. 模型擬合和預(yù)測。利用構(gòu)建好的ARIMA模型對實驗時間序列進(jìn)行擬合,并預(yù)測數(shù)據(jù)未來的趨勢。對于檢驗通過的ARIMA模型利用Eviews中的Forecast模塊,在sample欄中選擇需預(yù)測的實驗數(shù)據(jù)進(jìn)行逐步向前預(yù)測。

2.3 組合預(yù)測模型NDGM-ARIMA

各類預(yù)測模型的研究重點和關(guān)注方向都有所不同,因此,對同一個實驗數(shù)據(jù)集進(jìn)行預(yù)測,不同的模型會產(chǎn)生不同的結(jié)果。為了提高預(yù)測模型的預(yù)測精度以及模型的適用性,本文將NDGM(1,1)模型和ARIMA(p,d,q)模型進(jìn)行組合,簡稱NDGM-ARIMA模型。組合預(yù)測模型綜合考慮兩個模型的預(yù)測結(jié)果,通過為單個模型的預(yù)測結(jié)果賦予最佳的權(quán)重系數(shù),最大限度地利用多個模型的樣本信息。構(gòu)建組合模型,也在一定程度上減少了單個預(yù)測模型受外界因素的干擾,考慮問題更加全面系統(tǒng),從而提高模型預(yù)測的精度。

本文構(gòu)建的NDGM-ARIMA組合預(yù)測模型用于實現(xiàn)個人體檢指標(biāo)序列的預(yù)測,模型具體的表達(dá)式為:?X(t)=w?G(t)+(1?w)?A(t)。其中:?G(t)表示NDGM(1,1)模型t 時刻的預(yù)測值;?A(t)表示ARIMA模型t 時刻的預(yù)測值;w為組合模型權(quán)重值,取值范圍為w∈[0,1],表示單個模型預(yù)測結(jié)果的重要程度。

在組合預(yù)測模型中,如何恰當(dāng)?shù)厍蠼獬鰴?quán)重系數(shù)是關(guān)鍵。確定權(quán)重系數(shù)常用方法包括算術(shù)平均法、最優(yōu)加權(quán)法、方差倒數(shù)法等。算術(shù)平均法是在對模型重要性缺乏了解時常用的權(quán)重選定方法,但是該方法缺乏對單個模型重要性的掌握,對每個模型賦予相同的權(quán)重,不分優(yōu)先順序使得預(yù)測效果不佳。最優(yōu)加權(quán)法需要求解線性或非線性規(guī)劃,計算復(fù)雜并且計算結(jié)果有可能為負(fù),在實際應(yīng)用中具有較大的局限性。方差倒數(shù)法則是通過預(yù)測模型的誤差平方和的計算來反映預(yù)測精度,相較于算數(shù)平均法和最優(yōu)加權(quán)法,直接應(yīng)用預(yù)測誤差平方和更能反映各個模型在組合預(yù)測中的重要程度,賦予的權(quán)重數(shù)值更為合理有效。而且方差倒數(shù)法易操作,獲得的預(yù)測效果好。因此,為求解預(yù)測模型最佳的組合權(quán)重大小,本文采用方差倒數(shù)這一方法。方差倒數(shù)的目的是使組合預(yù)測模型的誤差平方和盡可能小。因此,需要對組合模型中誤差平方和大的模型賦較小的權(quán)重值,對誤差平方和小的模型賦較大的權(quán)重值。

采用方差倒數(shù)進(jìn)行組合權(quán)重賦值,首先計算出單個預(yù)測模型的預(yù)測誤差平方和。用ei表示第i個模型的誤差平方和,其計算方式如式(18)所示。

式中:xi為原始數(shù)據(jù);?xti為其對應(yīng)的預(yù)測值;(xi??xti)為預(yù)測誤差。

計算出單個模型的誤差平方和在全部模型中的占比,這一占比即該模型的權(quán)重值大小。利用模型的預(yù)測誤差得到權(quán)重系數(shù)的計算公式為

式中,m∑i=1wi?1=1,j=1,2,?,m。

由式(19)可以發(fā)現(xiàn),當(dāng)單個模型的誤差平方和越大時,獲得的權(quán)重越小,則模型預(yù)測精度越低,預(yù)測結(jié)果的價值度越低。

3 個體體檢指標(biāo)預(yù)測實驗及結(jié)果分析3.1 實驗數(shù)據(jù)集描述

心血管疾病已成為當(dāng)前社會的一種高發(fā)疾病,該類疾病的高危致病因素眾多,包括高血壓、糖尿病、肥胖、血脂異常、吸煙和過度飲酒等。由相關(guān)統(tǒng)計數(shù)據(jù)可發(fā)現(xiàn),近年來,心血管疾病患者死亡率極高,所以人們必須對此類疾病引起重視,加強自身健康管理?;颊咄ㄟ^定期健康體檢,可以幫助醫(yī)生和患者及時了解當(dāng)前身體狀況,發(fā)現(xiàn)關(guān)鍵病因信號,提前進(jìn)行預(yù)防和治療,降低患病的風(fēng)險。因此,構(gòu)建適當(dāng)?shù)念A(yù)測模型,實現(xiàn)對人體主要健康指標(biāo)序列的有效預(yù)測,具有重要的現(xiàn)實意義。

本文采用天池公開數(shù)據(jù)集中的心臟病體檢數(shù)據(jù)集進(jìn)行分析,數(shù)據(jù)集中包含多名體檢者連續(xù)多年的體檢數(shù)值,例如血脂水平中甘油三酯、總膽固醇、高密度脂蛋白膽固醇、低密度脂蛋白膽固醇4項指標(biāo)和空腹血糖指標(biāo)等數(shù)值。實驗選擇空腹血糖指標(biāo)作為實驗數(shù)據(jù)序列,血糖指標(biāo)是檢測心血管疾病和糖尿病的關(guān)鍵指標(biāo),同時也是人體健康管理中重要的體檢指標(biāo),關(guān)注血糖值的變化可以有效監(jiān)測到心血管類疾病??崭寡侵笜?biāo)的正常取值為3.9~6.1 mmol/L。在4個不同年齡段(20~30歲,30~40歲,40~50歲,50~60歲)中隨機選擇一名體檢者,對4名體檢者的空腹血糖指標(biāo)進(jìn)行擬合和預(yù)測。4名體檢者2005—2014年指標(biāo)的空腹血糖體檢時間序列為表2,將4名實驗對象樣本分別用X1,X2,X3,X4表示。


表 2 4名體檢者2005—2014年空腹血糖體檢數(shù)據(jù)Table 2 Fasting blood glucose physical examination data of 4 examines from 2005 to 2014

3.2 模型預(yù)測結(jié)果及分析

為了更加直觀地分析組合預(yù)測模型的性能,利用ARIMA(p,d,q),GM(1,1),NDGM(1,1),NDGM-ARIMA組合預(yù)測模型4個模型對血糖體檢時間序列進(jìn)行擬合和預(yù)測,通過分析各模型的預(yù)測值和相對模擬誤差Δ(t)來分析組合預(yù)測模型的預(yù)測性能。相對模擬誤差計算公式如下:

Δ(t)=|?x(0)(t)?x(0)(t)|x(0)(t) (20)

3.2.1 ARIMA(2,2,1)模型預(yù)測

實驗分別對4名體檢者空腹血糖時間序列建立相應(yīng)的ARIMA預(yù)測模型。例如45歲體檢者的時間序列由原始序列X(0)=(x(0)(1),x(0)(2),?,x(0)(10))=(5.69,5.03,?,5.78)可知,原始序列是一個非平穩(wěn)時間序列,首先進(jìn)行差分處理轉(zhuǎn)化為平穩(wěn)序列。將數(shù)據(jù)輸入Eviews軟件中,對原始序列進(jìn)行ADF檢驗,ADF檢驗結(jié)果如圖1所示??砂l(fā)現(xiàn)當(dāng)二階差分時,所有t 值的絕對值均小于ADF檢驗統(tǒng)計量的絕對值,且p值為0.0090,小于0.05,說明原序列已轉(zhuǎn)化為平穩(wěn)時間序列,則ARIMA模型的差分階數(shù)為d=2。


圖 1 ADF檢驗Fig. 1 ADF inspection

接著,對模型進(jìn)行識別,確定模型的ACF和PACF。利用Eviews軟件Correlogram相關(guān)圖查看序列二階差分的ACF和PACF值,得到如圖2所示的自相關(guān)圖。


圖 2 序列的自相關(guān)系數(shù)和偏自相關(guān)系數(shù)Fig. 2 Autocorrelation coefficient and partial autocorrelation coefficient of sequence

由圖2可知,時間序列的自相關(guān)系數(shù)ACF在1階截尾,偏自相關(guān)系數(shù)PACF在2階截尾。因此,構(gòu)建ARIMA(2,2,1)模型對空腹血糖體檢序列進(jìn)行預(yù)測。之后,在Eviews軟件中進(jìn)行建模,采用列表法對ARIMA方程進(jìn)行定義:data c ar(1) ar(2) ma(1),根據(jù)定義后的模型得到ARIMA(2,2,1)模型具體的表達(dá)式為

?X(t)=0.100054+1.577592Xt?1?0.886659Xt?2+0.7999621at?1+εt (21)

對于27,35,57歲體檢者血糖序列,同樣利用Eviews軟件建立最優(yōu)的ARIMA模型,得到27歲體檢者血糖序列的時間序列預(yù)測模型為ARIMA(2,1,1),35歲對應(yīng)模型為ARIMA(3,1,2),57歲對應(yīng)模型為ARIMA(3,2,2)。

3.2.2 NDGM(1,1)模型預(yù)測

同樣地,對于4個時間序列建立對應(yīng)的GM(1,1)模型和離散灰色模型NDGM(1,1)。以表2所示的45歲體檢者的血糖數(shù)據(jù)為具體例子進(jìn)行建模,可知該體檢者空腹血糖指標(biāo)原始序列為X(0)=(x(0)(1),x(0)(2),?,x(0)(10))=(5.09,5.03,?,5.78),利用python代碼建立序列X(0)的GM(1,1)模型,得到模型參數(shù)a=?0.01026,b=4.946395,則關(guān)于空腹血糖指標(biāo)預(yù)測的GM(1,1)模型的時間響應(yīng)表達(dá)式為

{?x(1)(1)=5.69?x(1)(k+1)=487.7948e0.01026k?482.1048 (22)

進(jìn)一步對優(yōu)化后的NDGM(1,1)模型的參數(shù)?α,?β,?γ及a,b,c進(jìn)行參數(shù)估計,計算出具體的數(shù)值結(jié)果,?α=0.1286,?β=4.5564,?γ=5.3875,a=2.0507,b=10.7234,c=5.6018,得到NDGM(1,1)模型為

?x(0)(t)=0.2791(1?e2.0507)e?2.0507(t?1)+5.2291 (23)

同理可得:27歲體檢者的GM(1,1)模型和NDGM(1,1)模型表達(dá)式分別如式(24)和(25)所示;35歲體檢者的GM(1,1)模型和NDGM(1,1)模型表達(dá)式分別如式(26)和(27)所示;57歲體檢者的GM(1,1)模型和NDGM(1,1)模型表達(dá)式分別如式(28)和(29)所示。

?x(1)(k+1)=1206.11e0.00374k?1201.85 (24)?x(0)(t)=0.4826(1?e0.2496)e?0.2496(t?1)+4.65789 (25)?x(1)(k+1)=238.4688e0.0183k?234.429 (26)?x(0)(t)=0.4206(1?e?0.108)e0.108(t?1)+3.9389 (27)?x(1)(k+1)=953.8109e0.00562k?948.341 (28)?x(0)(t)=0.5370(1?e?0.9455)e0.9455(t?1)+5.4571 (29)

3.2.3 灰色–時間序列組合模型NDGM-ARIMA預(yù)測

將4個預(yù)測模型ARIMA(2,2,1),GM(1,1),NDGM(1,1)和NDGM-ARIMA組合模型分別對4名體檢者2005—2014年空腹血糖體檢序列進(jìn)行預(yù)測,各個模型對45歲體檢者血糖的預(yù)測結(jié)果如表3所示,4名體檢者的整體預(yù)測結(jié)果如圖3所示。利用式(19)的權(quán)重系數(shù)計算方法確定組合模型的權(quán)重系數(shù),得到在對45歲體檢者進(jìn)行預(yù)測時,NDGM(1,1)模型和ARIMA(2,2,1)模型的權(quán)重系數(shù)分別為0.6286,0.3714。



表 3 空腹血糖指標(biāo)的模型擬合結(jié)果Table 3 Model fitting results of fasting blood glucose index
圖 3 4名體檢者血糖指標(biāo)預(yù)測結(jié)果Fig. 3 Prediction results of blood glucose indexes of 4 physical examiners

由圖3所示的4名體檢者的預(yù)測結(jié)果曲線和實際數(shù)據(jù)曲線對比分析可知,論文對于35歲體檢者的空腹血糖指標(biāo)預(yù)測結(jié)果并非是對比模型中最佳的。這有可能是因為在數(shù)據(jù)集中,該體檢者初始體檢年份血糖指標(biāo)與最終體檢年份的指標(biāo)數(shù)值相差較大。由于存在各種外界因素導(dǎo)致的兩個體檢數(shù)據(jù)的不準(zhǔn)確和差距較大,使得模型的誤差較大,從而導(dǎo)致預(yù)測精度下降。但是,通過進(jìn)一步分析35歲體檢者空腹血糖指標(biāo)預(yù)測值可以發(fā)現(xiàn),構(gòu)建的組合模型與最優(yōu)預(yù)測模型二者間的預(yù)測值相差極小。同時,組合預(yù)測模型在其余3個年齡段的體檢者的血糖值擬合上都更接近真實數(shù)值,說明了組合模型對于絕大多數(shù)的體檢數(shù)據(jù)預(yù)測是有效的,也證明了組合模型預(yù)測結(jié)果的真實性、高可信度。

進(jìn)一步對45歲體檢者血糖指標(biāo)預(yù)測具體數(shù)值進(jìn)行分析。與傳統(tǒng)的GM(1,1)模型對比,改進(jìn)的灰色模型NDGM(1,1)在實驗序列上的擬合值雖然存在部分預(yù)測值差于GM(1,1)模型,但是從兩個模型的平均相對誤差來看,NDGM(1,1)模型的平均相對誤差為0.0501,GM(1,1)模型的平均相對誤差為0.0528,NDGM(1,1)模型的平均相對誤差小于GM(1,1)。這一實驗結(jié)果顯示,構(gòu)建的NDGM(1,1)模型在體檢指標(biāo)序列預(yù)測上整體的預(yù)測效果優(yōu)于GM(1,1)模型,說明構(gòu)建的改進(jìn)灰色預(yù)測模型在預(yù)測精度上得到了一定程度的提升。

通過NDGM-ARIMA模型與3個單個預(yù)測模型的對比,組合模型的擬合值和相對誤差都優(yōu)于單個灰色預(yù)測和時間序列模型,這說明組合模型確實適用于健康體檢指標(biāo)的預(yù)測,模型的擬合值更加接近實際體檢數(shù)據(jù)。另外,這也證明了組合模型能夠更好地結(jié)合單個NDGM(1,1)模型和時間序列模型的優(yōu)點,在一定程度上克服了單一預(yù)測模型的局限性,提高了模型的預(yù)測精度。

利用NDGM-ARIMA組合模型預(yù)測45歲體檢者2015—2018年的血糖數(shù)值,預(yù)測結(jié)果如表4所示。


表 4 NDGM-ARIMA模型對2015—2018年空腹血糖指標(biāo)預(yù)測值Table 4 NDGM-ARIMA model predicted values of fasting blood glucose indexes from 2015 to 2018

已知空腹血糖的正常范圍為3.6~6.1 mmol/L,結(jié)合2015—2018年的預(yù)測值來分析該體檢者身體狀況變化趨勢。由預(yù)測數(shù)值可發(fā)現(xiàn),該體檢者的空腹血糖指標(biāo)數(shù)值呈現(xiàn)緩慢上升的趨勢,預(yù)計到2017年血糖指標(biāo)數(shù)值將達(dá)到6.12 mmol/L,已經(jīng)突破人體空腹血糖正常值最大臨界值,體檢者極有可能患糖尿病等疾病,危害身體健康。因此,由預(yù)測結(jié)果可以得出,體檢者未來幾年患糖尿病和心血管疾病的潛在風(fēng)險很大,必須注意自身糖分的攝入,加強身體日常管理,提前做好預(yù)防措施或采取及時的治療手段。

4 結(jié) 論

傳統(tǒng)體檢指標(biāo)分析僅局限于單次指標(biāo)數(shù)值高低的靜態(tài)分析,忽略了因個體差異導(dǎo)致的體檢數(shù)據(jù)的動態(tài)變化趨勢。因此,構(gòu)建合理有效的數(shù)據(jù)模型來挖掘體檢指標(biāo)的發(fā)展規(guī)律,準(zhǔn)確預(yù)測體檢數(shù)值的變化趨勢和未來取值范圍,并基于預(yù)測結(jié)果對個體健康狀況實施預(yù)警管理,通過監(jiān)測人體主要健康指標(biāo)的變化,及時發(fā)現(xiàn)潛在的患病因子或風(fēng)險因素,進(jìn)一步采取有效的預(yù)防和治療措施,對于實現(xiàn)個體健康管理具有重要的現(xiàn)實意義。

為了構(gòu)建適用于個體主要健康體檢指標(biāo)的預(yù)測模型,加強模型在體檢指標(biāo)上的預(yù)測性能,本文提出一個改進(jìn)灰色模型和時間序列模型相結(jié)合的組合預(yù)測模型。首先分析體檢指標(biāo)序列的特征,考慮到體檢指標(biāo)序列是一個近似非齊次指數(shù)序列,以及GM(1,1)模型中的離散和連續(xù)之間的誤差,構(gòu)建了一個近似非齊次指數(shù)序列的離散灰色模型NDGM(1,1)。其次,為了將單個預(yù)測模型的優(yōu)勢結(jié)合在一起,論文將時間序列預(yù)測模型ARIMA(p,d,q)和NDGM(1,1)模型進(jìn)行組合得到NDGM-ARIMA模型。在盡可能保證組合模型誤差平方和達(dá)到最小的情況下,為兩個模型的預(yù)測結(jié)果賦予最佳權(quán)重系數(shù),并將加權(quán)后的結(jié)果作為最終的模型擬合結(jié)果和預(yù)測結(jié)果。NDGM-ARIMA組合模型在血糖體檢指標(biāo)數(shù)據(jù)集上的預(yù)測結(jié)果表明,組合模型在體檢指標(biāo)序列上的預(yù)測精度有所提高,保證了預(yù)測結(jié)果的有效性和準(zhǔn)確性,從而可以利用預(yù)測結(jié)果有效地分析出個人主要健康體檢指標(biāo)的變化趨勢,實現(xiàn)人們健康管理的目標(biāo)。

但是,本文模型存在一定的局限性。首先,本文研究數(shù)據(jù)集為等時距的近似非齊次指數(shù)序列,然而,實際應(yīng)用中存在大量的非等間距的近似非齊次指數(shù)序列,容易導(dǎo)致因數(shù)據(jù)序列類型不符合預(yù)測模型而出現(xiàn)較大的建模誤差。因此,如何進(jìn)一步拓展灰色預(yù)測模型的適用范圍將成為未來的研究方向。其次,本文組合模型中僅使用了方差倒數(shù)法求解各預(yù)測模型權(quán)重,但是單一賦權(quán)的方式可能存在較大的權(quán)重求解誤差,因此在對多種賦權(quán)方法研究的基礎(chǔ)上,是否可通過將兩種及以上賦權(quán)方法結(jié)合起來進(jìn)行求權(quán),從而提高預(yù)測模型建模精度,同樣是本文進(jìn)一步的研究方向。

相關(guān)知識

Analysis of body composition and influencing factors of lean non
The Health Benefits of Dietary Fibre
居民時空行為與環(huán)境污染暴露對健康影響的研究進(jìn)展
關(guān)于運動與健康的英語作文(通用27篇)
基于健康生態(tài)學(xué)模型的我國老年人慢性病共病影響因素研究
鍛煉健康
Health Impact Assessment of Air Pollution from Road Traffic Sources in China
運動與健康的英語作文(精選18篇)
應(yīng)對計劃對女大學(xué)生減肥效果的影響:情緒調(diào)節(jié)和理想體型有調(diào)節(jié)的中介作用
環(huán)境健康與生態(tài)安全系

網(wǎng)址: Grey time series combination model for health warning of physical examination indexes http://www.u1s5d6.cn/newsview65057.html

推薦資訊