首頁 資訊 Reliability and Validity of Self

Reliability and Validity of Self

來源:泰然健康網 時間:2025年04月14日 06:33

摘要: 本文利用2008年“中國流動與健康調查”(IMHC)數據, 分析了自評一般健康指標的信度和效度。研究發(fā)現, 自評一般健康具有較好的信度, 被訪者先后兩次回答的結果高度一致, 兩次回答結果的微小變動表現為隨機性的波動, 而非系統(tǒng)性偏差。該指標在一定程度上會受到調查中題目次序效應的影響。關于自評一般健康指標效度的分析發(fā)現, 該指標能夠有效反映被訪者自我感知的各種健康狀態(tài)和個體既有的關于自身健康的知識, 但不能很好地反映個體無法感知的機體變化等健康問題。自評一般健康存在較為復雜的回答偏誤問題, 受不同年齡、社會經濟地位群體關于健康的評價標準、期望與認知差異的影響, 其回答結果在不同人群中的可比性值得商榷。

Abstract: Using data from the 2008 Survey of Internal Migration and Health in China, this study examines the reliability and validity of self-rated general health for the Chinese population. Results show that self-rated general health is a highly reliable measure of individual health. Two repeated measures of self-rated general health in the survey are quite consistent and the difference between the two answers reflects random variations rather than any systematic biases. Nonetheless, there is also some evidence that self-rated general health is likely to be affected by question orders in a survey.In addition, this study examines the validity and potential reporting bias of self-rated general health by fitting Hopit models. Results show that self-rated general health is a valid summary measure of individual's self-perceived and known health conditions, although it does not reflect bodily functional changes that can hardly be perceived. The response of self-rated general health is strongly correlated with respondent's chronic medical conditions, the occurrence of acute illness, self-perceived pains/discomfort, insomnia symptoms and depression; however, it is only weakly correlated with objective biometrics such as blood pressure and lung capacity.Finally, it is worth noting that there exists complicated reporting heterogeneity in self-rated general health among different social groups. Due to differences in rating standard, expectation and cognitive capability regarding health, different social groups respond to the question of self-rated general health differently. After controlling for all the specific measures of individual health in the data, older respondents tend to underestimate their true health status, while those better educated and respondents with higher family incomes tend to overestimate their true health conditions. The existence of reporting heterogeneity is likely to hamper the cross-population comparability of self-rated general health.

Key words: self-rated general health    reliability    validity    reporting heterogeneity    

自20世紀80年代以來,健康不平等問題及其社會影響因素日益成為社會科學研究的熱點之一。1受研究成本、技術和手段的限制(如問卷調查方法),自評一般健康(self-rated general health)指標成為社會研究者分析健康問題的首選工具。與其他健康指標相比,自評一般健康通過詢問被訪者一個單一的問題來測量其健康狀況,2操作簡便,成本很低,目前已經在許多大型社會調查中得到普遍應用,并通過對該指標的分析也產生了大量的研究成果。不過,自評一般健康指標的信度和效度問題也一直是學術界關注和爭論的焦點(Jylh?,2009;Mathers,2003;Sadana, et al., 2002;Thomas and Frankenberg, 2002)。這樣一個簡單問題能夠在多大程度上反映被訪者的真實健康狀況?其測量的穩(wěn)定性如何?對于這些問題,學術界還未達成共識,仍有待于在相應領域做進一步的深入探討。

到目前為止,國際學術界關于自評一般健康指標的信度和效度的研究成果已相當豐富,但在中國相關問題所受到的關注仍非常有限??紤]到大量國際研究主要使用西方發(fā)達國家的數據資料,其研究結論的普適性仍有待檢驗。本文旨在利用中國的調查數據,就該問題提供新的證據資料,以期為推動健康問題的社會理論發(fā)展貢獻新的知識。具體而言,本文的主要研究問題包括:第一,自評一般健康的測量是否具有穩(wěn)定性?換句話說,如果針對同一調查對象重復進行測量,所得到的結果是否一致?如果不一致,是哪些因素導致了這種變化?第二,自評一般健康是否能夠反映被訪者的真實健康狀況?它與其他健康指標之間的關系如何?使用自評一般健康指標來考察不同社會群體的健康差異時是否會導致系統(tǒng)性偏誤?本文接下來將首先簡單回顧和梳理針對自評一般健康信度和效度問題的既有研究成果與相關爭論,再介紹本研究所使用的主要數據以及分析方法。在第三部分,筆者將利用較新的中國調查數據分析自評一般健康的信度、效度和可能的回答偏誤問題。最后,對本研究的主要發(fā)現進行簡單的總結和討論。

一、既有研究評述(一) 健康的概念及其測量

按照世界衛(wèi)生組織(WHO,1946)的定義,健康是指“一種身體、精神和社會的完全安寧狀態(tài),不僅僅是沒有疾病或體質虛弱”。由此可見,健康是一個復雜、多維的概念,在實際研究中很難通過某項單一的指標來反映個體健康的所有維度。穆雷和陳(Murray and Chen, 1992)認為,個體健康狀況實際上包括三個不同的組成部分:能夠自我感知但通過外部手段難以觀測的疼痛和不適感、既能自我感知又能觀測到的機體變化,以及無法自我感知但卻可以測量到的機體變化。其中,前兩個部分的信息可以通過個體的自我感知獲得,后兩個部分的信息可以通過醫(yī)學檢測手段獲知。因此,要想全面了解個體的健康狀況,就有必要同時收集自評健康指標和客觀體測結果。當然,自我感知的健康狀況與醫(yī)學觀察結果并不必然一致,這是因為它們所反映的健康維度本身就存在差異。

自我感知的健康狀況既取決于機體病理負擔,還受個體自身的社會和文化背景的影響。健康自評取決于被訪者與參照群體或者自認的理想健康狀態(tài)進行比較的結果,這兩者都可能因為在社會文化方面的差異而不同。盡管如此,自評健康指標在健康研究中仍具有非常重要的價值,個人對疾病負擔的主觀評價與認知對個體生活質量的影響甚至比一些客觀的健康指標更為關鍵(Murray and Chen, 1992),因此,關于疾病的自我感知情況本身就是值得研究的社會現象。

(二) 關于自評一般健康指標的爭論

在現實應用中,由于成本和可操作性等方面的限制,大型的社會調查一般只收集被訪者自報或自評的健康狀況信息,其中的自評一般健康已經成為社會調查研究中使用最廣泛的一項健康指標。

自評一般健康能否有效測量個體的真實健康狀況,尤其是在不同群體之間的自評一般健康是否具有可比性,對于這些問題的回答,以往的研究充滿了爭議。一方面,有研究發(fā)現,自評一般健康對個體死亡風險具有很強的預測效力(Bailis, et al., 2003;Benjamins, et al., 2004;Benyamini and Idler, 1999;Ferraro and Kelley-Moore, 2001;Frankenberg and Jones, 2004;Idler and Benyamini, 1997;Miilunpalo, et al., 1997;Van Doorslaer and Gerdtham, 2003);另一方面,也有研究指出,自評健康的回答行為在不同社會群體之間存在明顯的異質性(reporting heterogeneity),因而該指標在不同人群之間缺乏直接的可比性(Bound,1991;Groot,2000;Krause and Jay, 1994;Lindeboom and Van Doorslaer,2004;Sadana, et al., 2002;Salomon, et al., 2004;Sen,2002;Tandon, et al., 2002;Thomas and Frankenberg, 2002)。

伊德勒和本亞米尼(Idler and Benyamini, 1997)綜述了27項有關個體自評一般健康與死亡風險的研究成果,發(fā)現超過85%(23項)的研究表明自評一般健康對個體的死亡風險具有獨立的顯著效應,自評一般健康較差的對象在跟蹤期內死亡的風險明顯更高。這一效應即便在控制了個體的社會人口特征、社會經濟地位、社會網絡、健康行為,甚至客觀健康體測指標后依然顯著。因此,他們認為,自評一般健康是反映個體健康狀況的非常有效的綜合性指標。與其他指標相比,自評一般健康反映的信息更加綜合和更為全面,它包括了那些通過醫(yī)學手段無法檢測到的機體感覺和變化,代表著主體對疾病嚴重程度的綜合判斷和預測,甚至隱含著被訪者家庭病史等與個體健康變化軌跡密切相關的重要內容。在后續(xù)研究中,本亞米尼和伊德勒(Benyamini and Idler, 1999)進一步回顧了在1995-1998年間發(fā)表的另外19篇相關文獻后發(fā)現,盡管較新的研究使用了更為成熟的調查數據和分析方法,但這些研究同樣印證了個體自評一般健康與死亡風險的強相關關系。

費拉羅和凱利摩爾(Ferraro and Kelley-Moore, 2001)認為,以往研究中僅使用調查基期時的自評一般健康狀況,實際上導致了對個體自評一般健康和死亡風險之間關系的低估。他們利用美國健康與營養(yǎng)監(jiān)測調查(the National Health and Nutrition Examination Survey)數據研究發(fā)現,當只考察被訪者基期的自評一般健康狀況時,該指標對死亡風險的效應只在白人樣本中顯著,在黑人樣本中并不顯著。但當把自評一般健康作為一個時變變量(time-varying covariate)納入模型后,無論是白人群體還是黑人群體,對死亡風險均有顯著的預測效力。本杰明斯等(Benjamins, et al., 2004)進一步檢驗了美國成年人自評一般健康與死因別死亡風險(cause-specific mortality risk)之間的關系,結果表明,在控制社會人口特征、基期健康狀況和健康行為后,自評一般健康狀況與死于糖尿病、傳染性疾病和呼吸道疾病的風險高度相關,與死于心臟病、中風和癌癥等的風險也具有較強的相關關系,但與死于意外事故、兇殺、自殺等的風險不存在顯著關系。這些結果進一步印證了自評一般健康包含關于被訪者真實健康狀況的重要信息。弗蘭肯伯格和瓊斯(Frankenberg and Jones, 2004)對印度尼西亞家庭生活調查(the Indonesia Family Life Survey,IFLS)的三期跟蹤數據的分析表明,自評一般健康為“差”的個體在調查跟蹤期內死亡的概率明顯高于自評一般健康為“好”的個體。相應效應在控制了調查對象營養(yǎng)狀況、生理和機體活動能力、高血壓以及抑郁等眾多健康指標后仍然顯著。這一研究從發(fā)展中國家的數據出發(fā),為自評健康指標的有效性提供了進一步的支持。

盡管有大量研究支持自評一般健康與死亡風險密切相關,但這些證據并沒有減少人們對使用自評健康指標考察健康差異的質疑,尤其是自評健康指標可能帶來的回答偏誤(reporting biases)問題,在不同人群之間的跨人群可比性仍是懸而未決的重要議題(Mathers,2003)。3

與自評一般健康和死亡風險的一致性關系的研究結果相對照,不少研究考察了自評健康指標在測量個體真實健康狀況時可能導致的偏誤。例如,托馬斯和弗蘭肯伯格(Thomas and Frankenberg, 2002)指出,在評估自評健康指標的效度時,最大的困難在于我們對每個被訪者的“真實”健康狀況知之甚少。他們利用美國健康與營養(yǎng)監(jiān)測調查數據,比較了個體自報的身高、體重與客觀測量的身高和體重之間的關系,由于后者只受隨機測量誤差的影響,在一定程度上可以視為“真值”。分析結果顯示,與客觀測量結果相比,自報的身高和體重具有系統(tǒng)性的測量誤差,這些測量誤差與個體特征之間存在非常復雜的關系,因而難以有效修正。他們還利用印度尼西亞家庭生活調查(IFLS)數據,分析了自評一般健康與其他生理健康指標之間的關系,發(fā)現自評一般健康確實包含了關于個體健康狀況的重要信息,但同時也受到了個體特征與生活經歷的影響,如社會經濟地位、健康服務利用和關于怎樣才算是“健康”的個人標準等,都不同程度地影響著被訪者關于自評一般健康的回答結果。

薩達納等(Sadana, et al., 2002)認為,對健康的界定標準、期望和認知過程存在差異嚴重影響了自評健康指標的跨人群可比性?;趯?6個國家調查數據的比較分析,他們指出,男性被訪者的自評一般健康往往好于女性;在部分非洲國家,不同年齡群體的健康自評結果甚至不存在顯著差異,這明顯與常識相悖。這些分析結果表明,不同性別和年齡群體關于自評健康的回答可能存在明顯的異質性,由此嚴重影響了自評一般健康在不同人群之間的可比性。即便在同一國家內部,不同文化群體之間的健康自評也可能存在系統(tǒng)差異,例如,在以色列,盡管阿拉伯人比猶太人的預期壽命明顯更低,各種疾病發(fā)生率和死亡率普遍更高,但他們的自評健康狀況卻好于后者(Baron-Epel, et al., 2005)。

于爾海(Jylh?,2009)從健康自我評價的社會心理過程出發(fā),對這種回答行為的異質性現象進行解釋。他指出,從問答心理的角度看,被訪者在回答自評一般健康問題時,首先需要界定什么是“健康”,在不同社會文化和時代背景下,這一定義可能存在差異。其次,被訪者會根據自己的界定從記憶中搜集回答問題所需要的相關信息,如疾病史、機體功能、肢體感覺等。當被訪者根據這些信息來判斷自己的健康狀況時,往往將自身情況與一個參照群體做比較,而到底選擇怎樣的參照群體可能會因年齡、性別、生活經歷而異。最后,當被訪者形成了自己的最終判斷并依據題目所給出的選項進行回答時,在表達上的文化差異也可能會影響被訪者傾向于選擇哪一個選項。

如何有效辨識和調整自評健康指標可能存在的回答偏誤問題,目前已成為國際健康比較研究中的熱點和難點之一。其中,一種可行的策略是,在調查中加入輔助的固定情境(anchoring vignettes)問題,即要求被訪者在評價自身健康的同時,還根據假想的情境描述評價一系列特定的健康狀況。這樣,可以通過這些輔助的虛擬情境問題識別每個被訪者的回答模式,并據此調整自評一般健康回答行為的異質性以及由此造成的偏誤(劉寶、胡善聯,2005;Jones, et al., 2007;King, et al., 2004;Murray, et al., 2002;Salomon, et al., 2004;Tandon, et al., 2002)。

另一種考察自評一般健康的回答偏誤問題的方法是,在調查數據中同時收集其他能夠有效反映被訪者真實健康狀況的詳細信息(Iburg, et al., 2002;Jürges,2007;Lindeboom and Van Doorslaer,2004)。該方法的基本思路是,如果我們能夠在一定程度上掌握被訪者的真實健康狀況,那么將自評一般健康狀況與之相比,其中的差異自然反映了自評一般健康指標所包含的回答偏誤。例如,林德布姆和范杜爾斯勒(Lindeboom and Van Doorslaer,2004)利用麥克馬斯特健康效用指數(McMaster Health Utility Index,HUI)測度被訪者的“真實”健康狀況,分析了加拿大居民關于自評一般健康回答行為的異質性問題。

為了進一步探討和檢驗自評一般健康的效度,本文利用中國較新的健康調查數據,綜合調查數據收集的不同維度的主客觀健康指標,以模擬個體的“真實”健康狀況,從而借助上述方法來考察自評一般健康與“真實”健康狀況的一致性。

二、數據與方法(一) 數據

本研究的數據取自2008年“中國流動與健康調查”(The Survey of Internal Migration and Health in China,IMHC)。該項目是由美國加州大學洛杉磯分校和中國首都醫(yī)科大學聯合完成的全國性調查項目。4調查采用分層整群隨機抽樣,在中國28個省、自治區(qū)、直轄市隨機選取的150個鎮(zhèn)級單位,共調查了3 000名18-64歲的被訪者。調查問卷的內容包括被訪者的基本社會人口信息、遷移流動史、教育和職業(yè)經歷、婚姻和家庭狀況、被訪者的心理健康狀況等。在由專業(yè)調查員完成問卷調查的同時,經過培訓的社區(qū)醫(yī)務人員繼續(xù)詢問了被訪者的既往病史和生理健康狀況,并為被訪者進行了簡單的體驗。

IMHC調查先后兩次詢問了被訪者的自評一般健康狀況。第一次是在整個調查中作為關于健康的第一個問題,由專業(yè)調查員完成提問;第二次是臨近調查的末尾,由社區(qū)醫(yī)務人員詢問了被訪者詳盡的疾病史和具體健康狀況等問題后,要求被訪者重新評價自己的一般健康狀況。這兩次測量結果和調查收集的其他主客觀健康信息為本文分析自評一般健康的信度和效度提供了重要的數據基礎。表 1列出了本研究所使用的主要健康指標及其界定標準。

表 1 本研究所使用的健康指標及其具體定義

(二) 方法

本文的分析主要包括兩個部分。首先,對IMHC調查中自評一般健康的兩次回答結果進行交叉列聯表分析,考察自評一般健康的信度。在此基礎上,擬合定序Probit模型,探討影響兩次測量結果之間一致性的可能因素。其次,本文借鑒林德布姆和范杜爾斯勒(Lindeboom and Van Doorslaer,2004)的方法,通過擬合層級定序Probit模型(Hierarchical Ordered Probit Model,HOPIT),以檢驗自評一般健康的效度,以及可能存在的回答偏誤問題。與普通的定序模型相比,該模型允許結果變量的各回答類別之間的切點(cut points)可以隨被訪者個體特征的變動而變動。通過對比不同被訪者自評健康切點位置的差異,可以有效辨識不同群體回答行為的異質性,從而考察自評健康指標的跨人群可比性問題。

在定序Probit模型中,假定存在一個關于真實健康狀況的連續(xù)性潛變量(H*),將自評一般健康(Hs)視為對該潛變量的一種粗糙測量,二者之間的關系可表示為:

$ {H^s} = i Leftrightarrow {c_{i - 1}} < {H^*} le {c_i}, ;;;i = 1, cdots, k $ (1)

其中,k表示自評一般健康所包括的類別數,ci為相應的切點,并有c0=-∞和ck=+∞。在Hopit模型中,允許切點ci隨著個體特征(X)如年齡、性別、社會經濟地位等的變動而變動,也即:

$ {c_i} = {g_i}(mathit{X}{beta _i}), ;;;i{rm{ = 1, }} cdots, mathit{k}{rm{ - 1}} $ (2)

由于真實健康狀況(H*)往往是無法直接觀測的,本文將真實健康狀況定義為IMHC調查數據中所收集的一系列多維度主客觀健康測量指標(H0)的函數。這些測量指標包括慢性病史、急性病狀況、疼痛和不適感、心理健康狀況和一系列客觀的體測指標。這樣就有:

$ {H^*} = f({mathit{H}^0}, varepsilon ;alpha) $ (3)

將式(2)、(3)帶入式(1),本文所構建的Hopit模型可表示為:

$ {H^s} = i Leftrightarrow {g_{i - 1}}(mathit{X}{rm{;}}{beta _{i - 1}}) < f({mathit{H}^{rm{0}}}, varepsilon ;alpha) le {g_i}(mathit{X}{rm{;}}{beta _i}) $ (4)

式(4)是對Hopit模型一般形式的簡化。其一般形式不僅允許真實健康狀況(H*)表示為其他健康測量指標(H0)的函數,而且真實健康狀況也可以隨著其他個體特征變量(X)的變化而變化,即:

$ {H^*} = f({mathit{H}^0}, mathit{X}{rm{, }}varepsilon {rm{;}}alpha {rm{, }}gamma) $ (5)

以及

$ {H^s} = i Leftrightarrow {g_{i - 1}}({X}{rm{;}}{beta _{i - 1}}) < f({{H}^0},{X}{rm{,}}varepsilon {rm{;}}alpha {rm{,}}gamma ) le {g_i}({X}{rm{;}}{beta _i}) $ (6)

由模型的待估計參數個數與模型約束條件可知,除非數據中包含固定情境變量等額外信息或者對模型參數設定人為的約束條件,當相同的個體特征變量既出現在關于自評一般健康的切點(ci)的函數中,又出現在關于真實健康狀況的函數中時,模型(6)無法擬合。相比之下,它的簡化形式模型(4)是可以擬合的,其隱含假定是,H0反映了所有基于真實健康狀況導致的自評一般健康的差異,因而自評一般健康的其他殘余變異都是由被訪者回答行為的異質性引起的,這些異質性可以由個體特征來預測和解釋。

在定序Probit模型的框架下,式(4)可以進一步表示為:

$ begin{array}{l} {rm{Pr(}}{mathit{H}^s}{rm{ = }}mathit{i}{rm{) = }}mathit{Phi }left[ {frac{{{g_i}(mathit{X}{rm{;}}{beta _i}) - f{rm{(}}{mathit{H}^0}{rm{;}}alpha {rm{)}}}}{sigma }} right] ;;;;;;;;;;;;;;; - mathit{Phi }left[ {frac{{{g_{i - 1}}(mathit{X}{rm{;}}{beta _{i - 1}}) - f({mathit{H}^0}{rm{;}}alpha)}}{sigma }} right] end{array} $ (7)

其中,Φ(·)表示標準正態(tài)分布累積分布函數。

三、主要分析結果(一) 自評一般健康的信度分析

如前所述,在IMHC調查中,先后兩次詢問了被訪者的自評一般健康狀況。表 2列出了被訪者針對同一問題的兩次回答結果的交叉列聯表??傮w來說,這兩次測量的結果具有很強的正相關關系(γ=0.768,SE=0.013)。表 2中主對角線上的數值(即兩次回答結果一致)明顯高于其他數值,這表明,自評一般健康在相當程度上是穩(wěn)定和一致的健康測量指標。不過,如表 2所示,在兩次測量中,仍然有部分被訪者改變了對自己的健康評價結果,這種改變主要發(fā)生在相鄰類別之間。例如,在第一次自評健康為“很好”的被訪者中,有30%的人第二次的回答結果為“好”;第一次回答“差”的被訪者中,有33%的人第二次回答結果為“一般”。相比之下,在兩次測量中評價結果從“很好”變成了“差”(或是相反)的被訪者比例很低(分別約為1%和3%)。

表 2 被訪者關于自評一般健康問題的兩次回答結果的交叉列聯表(%)

將兩次關于自評一般健康的回答結果進行對比,利用第二次回答結果的值減去第一次的值,可以產生一個表示兩次回答差異的新變量。根據兩次回答差異的方向,筆者將這個新變量劃分為以下三個類別:變好(23%)、保持一致(62%)和變差(15%)。通過對該變量擬合定序Probit模型,分析兩次回答結果之間的變化究竟受到哪些因素影響。

這里所考察的可能影響因素包括被訪者的年齡和性別等基本社會人口特征,反映被訪者社會經濟地位的居住地、教育程度和家庭收入等變量,以及與被訪者具體健康狀況和健康行為有關的變量。表 3給出了相應變量的樣本分布情況。

表 3 相關變量的樣本統(tǒng)計分布情況(未加權)

表 4展示了針對自評一般健康兩次回答的差異擬合的定序Probit模型結果。其中,模型1只考慮了被訪者的年齡、性別、居住地、受教育程度和家庭收入等基本社會人口特征和社會經濟變量,數據結果顯示,這些變量對因變量的預測能力有限,所有的模型系數均不顯著。這表明,兩次關于自評一般健康狀況的回答差異跟被訪者的人口和社會經濟特征無關,而更多地表現為一種隨機波動。

表 4 關于兩次自評一般健康回答結果差異的定序Probit模型結果

模型2在模型1的基礎上加入了多項與被訪者健康狀況有關的變量,包括慢性病史、急性病狀況、身體的疼痛或不適感、抑郁和失眠等自報/自評健康指標,鍛煉身體、吸煙和飲酒等健康行為指標,以及體質指數(BMI)、血壓和肺活量等客觀體測指標。在調查實施過程中,上述自報/自評健康指標和健康行為指標是在兩次詢問自評一般健康狀況之間進行調查的。因此,模型2也旨在檢驗自評一般健康在調查中的題目次序效應(order effect)。模型2顯示,被訪者對自評一般健康問題的回答確實受到了題目次序效應的影響。具體而言,那些在過去一個月內患過急性病、過去三個月間有較多身體疼痛或不適感和失眠癥狀更嚴重的被訪者,其自評一般健康的第二次回答結果明顯比第一次變差(相應回歸系數分別在0.1、0.05和0.01的統(tǒng)計水平上顯著)。這表明,詳細的健康問詢可能對被訪者具有提醒效應,使之能更全面地評價自己的健康狀況。與之相反,有抑郁癥狀的被訪者第二次關于自評一般健康狀況的回答結果反倒比第一次的回答顯著變好。這可能是因為,調查開始時與抑郁癥狀相關的消極情緒使這些被訪者對很多問題的評價要比實際情況更為負面。但是,隨著具體健康狀況問題的展開,這些被訪者在詳細回顧了自身的各項健康指標后,傾向于對開始過于負面的評價予以修正。模型2中的其他變量(包括健康行為、客觀體測指標等)的回歸系數都不顯著,表明這些變量對兩次自評一般健康回答結果的一致性不存在明顯的效應。

(二) 自評一般健康的效度分析

在關于自評一般健康指標的信度分析之外,本文以下部分對該指標的效度進行了考察。具體而言,本研究結合使用IMHC調查收集的一系列主客觀健康指標(見表 1),假設被訪者的“真實”健康狀況可表示為這些健康指標的函數,從而擬合Hopit模型以考察自評一般健康指標的有效性。在本文的Hopit模型中,分別以兩次自評一般健康的回答結果作為因變量,模型允許自評一般健康的切點可以隨被訪者的年齡、性別、居住地、受教育程度和家庭收入的變動而變動。

表 5給出了具體的模型擬合結果。由表 5可見,自評一般健康的兩次測量結果與其他自評或自報健康指標均表現出強相關關系,不過,它們與客觀體測指標的關系明顯較弱。具體而言,兩次自評一般健康的回答結果與被訪者自報的慢性病史、急性病狀況、抑郁和疼痛感具有顯著的相關關系。有自報“曾被確診過的慢性病數量越多”、“在過去30天內患過至少一種急性病”和“有較多疼痛或不適感”的被訪者的自評一般健康狀況明顯較差。類似地,有抑郁癥狀的被訪者自評一般健康狀況也明顯不如其他被訪者。失眠癥狀與自評一般健康狀況也存在一定的關系,不過,相應關系僅在第二次自評一般健康回答結果的模型中具有統(tǒng)計顯著性,失眠癥狀越嚴重的被訪者,其自評一般健康狀況明顯較差。

表 5 關于自評一般健康的Hopit模型結果(N=2 046)

與上述結果形成明顯對照的是,兩次測量的自評一般健康狀況與模型中所包括的客觀體測指標只存在微弱的關系。事實上,只有體質指數(BMI)與兩次自評一般健康結果具有顯著的相關關系。與體重正常的被訪者(BMI為18.5-25)相比,體重偏輕的被訪者(BMI在18.5以下)的自評一般健康狀況顯著更差。第二次測量的自評一般健康結果與高血壓也存在一定的相關性,即臨床診斷為高血壓的被訪者其自評一般健康狀況較差,相應回歸系數僅在0.1的統(tǒng)計水平上顯著。

概括而言,本文的分析結果表明,自評一般健康可以很好地反映特定維度的個體健康狀況,尤其是那些能夠自我感知的身心狀況和已知的疾病經歷,如既往病史、疼痛感和心理疾病等,但它在反映那些個體不易察覺的機體變化時其效度值得懷疑(Murray and Chen, 1992),具體表現為自評一般健康指標與客觀體測指標之間的弱相關關系。

在控制了每個被訪者的“真實”健康狀況后,Hopit模型將自評一般健康指標所有殘余的變異歸結于不同個體回答行為的異質性,也即切點位移(cut-point shifts)現象。由模型結果可知,對于兩次自評一般健康狀況的回答結果,其各類別對應的切點均存在明顯的年齡差異。模型中所有關于年齡的主效應的估計系數均為負,這表明年齡較大的群體自評一般健康的切點小于年輕群體,也即,給定同樣的“真實”健康狀況,老年人對自己的健康評價似乎更加悲觀。由于切點的取值較小,在“真實”健康狀況相同的情況下,老年人在回答自評一般健康問題時,選擇任何一個較好類別的概率均較低(如選擇“很好”而不是“好/一般/差”、“很好/好”而不是“一般/差”、或者“很好/好/一般”而不是“差”的可能性更小)。模型中年齡的二次項效應為正,表明這種差異隨著年齡的上升有逐漸縮小的趨勢。

模型結果還顯示,在不同受教育程度和家庭收入水平的被訪者之間,也存在一定的切點位移問題。與受教育程度為“小學及以下”的被訪者相比,“大專及以上”的被訪者自評一般健康狀況的第三個切點取值明顯更大。這表明,給定“同等”的健康狀況,受過高等教育的被訪者比教育程度為“小學及以下”的被訪者自評一般健康回答為“差”的可能性更小。相比之下,家庭收入的效應更多反映在前兩個切點上。模型中家庭收入的效應均為正,表明給定“真實”健康水平,家庭富裕的被訪者更有可能對自己的健康狀況評價較高。

此外,在兩個模型中,性別對各切點的效應在0.05的統(tǒng)計水平上均不顯著。這顯示,兩性之間自評一般健康的差異主要反映了他們關于既往病史的了解和身體對病痛感知敏感程度等方面的差異,而不是兩者回答行為的不同。城鄉(xiāng)居民關于自評一般健康的回答行為的差異主要反映在第二次測量的第三個切點,即回答結果為“很好/好/一般”和“差”之間。與城鎮(zhèn)居民相比,農村居民的相應切點取值更小,表明在控制了模型中所有已測量的健康差異后,農村居民回答自評一般健康為“差”的可能性顯著高于城鎮(zhèn)居民。

通過以上分析不難看出,自評一般健康能夠有效反映被訪者對身心健康狀況的自我感知和綜合認知。與此同時,該指標也存在相當復雜的回答偏誤問題。這些回答偏誤主要是由于不同年齡和不同社會經濟地位的被訪者對健康的評價標準、期望和認知水平等方面存在差異,由此影響了他們對自評一般健康的回答結果及其可比性。

四、結論與討論

本文利用“中國流動與健康調查”數據,考察了自評一般健康指標的信度和效度。研究發(fā)現,盡管自評一般健康僅僅是一項單一的主觀性指標,但仍然具有較好的信度,調查中被訪者對該問題先后兩次回答的結果高度一致。通過對兩次回答結果中變動的情況擬合定序Probit模型發(fā)現,這些變動具有很強的隨機性,被訪者的個體社會經濟特征等因素對相應變動并不具有顯著的影響。被訪者對自評一般健康的回答在一定程度上會受到調查中題目次序的影響。在提問自評一般健康問題之前先對被訪者提問一系列具體的健康問題,有助于被訪者更加全面和客觀地評價自己的綜合健康狀況。例如,本文的模型結果顯示,在回答了一系列具體健康問題之后,那些近期曾患過急性病、存在經常性身體疼痛或不適感和失眠嚴重的被訪者均調低了對自己一般健康狀況的評價。與之相反,有抑郁癥狀的被訪者反倒調高了對自己健康狀況的評價,這可能反映了與抑郁相關的消極情緒和過度負面心理對自評健康存在負向影響,通過整理和回答具體的健康問題有助于減緩這種負面心理的影響,從而使被訪者能夠更加客觀地看待自己的健康狀況。

此外,本文還通過擬合Hopit模型分析了自評一般健康的效度和回答偏誤問題。分析結果表明,自評一般健康狀況與被訪者的其他自評或自報健康指標具有高度相關關系,但與客觀健康體測指標的關系則相對較弱。被訪者的慢性病史、近期是否患過急性病、身體疼痛或不適感、失眠、抑郁等狀況都對自評一般健康具有很強的效應,這表明自評一般健康能夠較為綜合有效地反映個體自我感知的健康狀況。但是,自評一般健康與本文所使用的客觀體測指標關系微弱,這說明它難以反映那些個體不易覺察的機體變化,如血壓、肺活量等。由此可見,自評一般健康能夠有效反映被訪者個人感知的身體和精神狀況,但并不能反映健康的所有維度。有鑒于此,在相關健康調查研究中同時收集各個維度主客觀的健康信息,對于全面、深刻地認識健康問題及其社會影響因素必不可少。

值得注意的是,本文的分析結果還表明,自評一般健康存在較為復雜的回答偏誤問題。受到不同被訪者關于健康的評價標準、期望和認知水平差異的影響,自評一般健康的回答結果顯示出了明顯的回答行為異質性或切點位移問題。即便在控制了本文所考察的這些具體健康差異后,老年群體仍然更傾向于“低估”自己的健康狀況,而受教育程度較高、家庭收入較高的群體則傾向于更“樂觀”地評價自己的健康狀況。這在一定程度上會影響自評一般健康指標的跨人群可比性。

盡管如此,自評一般健康仍然是反映個體健康狀況的最重要的指標之一。雖然不同群體關于自評一般健康的回答模式可能具有一定的系統(tǒng)差異,針對自評一般健康進行的比較研究仍能在一定程度上有效反映不同人群在許多方面的健康差異,包括慢性病史、急性病狀況、身體疼痛感和心理健康狀況等。而這些方面的健康問題或者難以通過客觀體測指標進行反映,或者極有可能受嚴重測量誤差的干擾(Bound,1991;Murray and Chen, 1992)。因此,基于健康概念本身的復雜性和多維性,一方面,我們不能寄希望通過任何一項單一的指標就能反映個體健康狀況的所有維度,另一方面,本文的研究結論也表明,在眾多健康指標中,自評一般健康仍不失為一項較為綜合有效的測度指標。

最后,盡管本文所擬合的Hopit模型為檢驗自評一般健康的回答偏誤問題提供了依據,但這一方法仍存在一定的局限性。由于該方法假設能夠準確測量個體的真實健康狀況,任何與“真實”健康測量不同的殘余健康差異都歸結為回答行為的異質性,因此,利用該方法的分析結果對“真實”健康狀況的測量高度敏感。在現實中,很難構建一個或一組健康指標來全面反映個體的真實健康狀況,我們對此只能通過盡可能廣泛、有效的健康指標來與之近似。在本文的分析中,筆者利用了“中國流動與健康調查”中所收集的豐富的主客觀健康信息來對被訪者的“真實“健康狀況進行近似,但自評一般健康所反映的信息仍然有可能超出了這些可測量的健康指標的范疇。因此,本文關于自評健康回答行為異質性的結論具有一定的嘗試性,其準確性和穩(wěn)健性仍有待后續(xù)研究的進一步檢驗。更有效地解答相關研究問題,還有待于我們在健康理論和研究方法上新的突破。

注釋:

1.相關評述可參見:王曲、劉民權(2005)。

2.自評一般健康是指在問卷調查中詢問被訪者以下問題:“總的來說,您認為您的健康狀況怎么樣?”回答選項一般由3-5個定序類別組成,不同調查的具體措辭可能存在細微差別。

3.值得指出的是,相應爭議不僅出現在關于自評健康指標的應用中,還廣泛存在于其他針對主觀性調查指標的研究中,如幸福感、滿意度等(王廣州、王軍,2013)。

有關該項目的進一步介紹,請參見項目網站:http://www.ccpr.ucla.edu/IM-China。

參考文獻(Reference)

[]

劉寶, 胡善聯. 2005.人群自報健康資料切點位移偏倚的校正——健康情景方法.中國衛(wèi)生統(tǒng)計(5): 314-317.

[]

王廣州, 王軍. 2013.中國家庭幸福感測量.社會, 33(6): 139-160.

[]

王曲, 劉民權. 2005.健康的價值及若干決定因素:文獻綜述.經濟學季刊(1): 1-52.

[]

Bailis Daniel, Alexander Segall, Judith G.Chipperfield. 2003.Two Views of Self-Rated General Health Status.Social Science & Medicine, 56(2): 203-217.

[]

Baron-Epel Orna, Giora Kaplan, Amalia Haviv-Messika, Jalal Tarabeia, Manfred S. Green, Dorit Nitzan Kaluski. 2005.Self-Reported Health as a Cultural Health Determinant in Arab and Jewish Israelis.Social Science & Medicine, 61(6): 1256-1266.

[]

Benjamins, Maureen Reindl, Robert A. Hummer, Isaac W. Eberstein, Charles B. Nam. 2004.Self-Reported Health and Adult Mortality Risk:An Analysis of Cause-Specific Mortality.Social Sciences & Medicine, 59(6): 1297-1306.

[]

Benyamini, Yael and Ellen L. Idler. 1999. "Community Studies Reporting Association between Self-Rated Health and Mortality: Addtional Studies, 1995 to 1998. "Research on Aging 21(3): 392-401.

[]

Bound John. 1991.Self-Reported Versus Objective Measures of Health in Retirement Models.The Journal of Human Resources, 26(1): 106-138.DOI:10.2307/145718

[]

Ferraro, Kenneth F., Jessica A. Kelley-Moore. 2001.Self-Rated Health and Mortality among Black and White Adults:Examining the Dynamic Evaluation Thesis.Journal of Gerontology:Social Sciences, 56B(4): S195-S205.

[]

Frankenberg Elizabeth, Nathan R. Jones. 2004.Self-Rated Health and Mortality:Does the Relationship Extend to a Low Income Setting?.Journal of Health and Social Behavior, 45(4): 441-452.DOI:10.1177/002214650404500406

[]

Groot Wim. 2000.Adaptation and Scale of Reference Bias in Self-Assessments of Quality of Life.Journal of Health Economics, 19(3): 403-420.DOI:10.1016/S0167-6296(99)00037-5

[]

Iburg, Kim Moesgaard, Joshua A. Salomon, Ajay Tandon, and Christopher J. L. Murray. 2002. "Cross-Population Comparability of Physician-Assessed and Self-Reported Measures of Health. "In Summary Measures of Population Health: Concepts, Ethics, Measurement and Applications, edited by Christopher J. L. Murray, Joshua A. Salomon, Colin D. Mathers, and Alan D. Lopez. World Health Organization: Geneva: 433-448.

[]

Idler Ellen L., Yael Benyamini. 1997.Self-Rated Health and Mortality:A Review of Twenty-Seven Community Studies.Journal of Health and Social Behavior, 38(1): 21-37.DOI:10.2307/2955359

[]

Jones Andrew M., Nigel Rice, Teresa Bago d'Uva, Silvia Balia. 2007.Applied Health Economics.London and New York:Routledge.

[]

Jürges Hedrik. 2007.True Health vs. Response Styles:Exploring Cross-Country Differences in Self-Reported Health.Health Economics, 16(2): 163-178.DOI:10.1002/hec.1134

[]

Jylh? Marja J.M., Guralnik L., Ferrucci J.Jokela, Heikkinen E.. 1998.Is Self-Rated Health Comparable across Cultures and Genders?.Journal of Gerontology Series B:Psychological Sciences and Social Sciences, 53(3): S144-S152.

[]

Jylh? Marja. 2009.What is Self-Rated Health and Why does it Predict Mortality?Towards a Unified Conceptual Model.Social Science & Medicine, 69(3): 307-316.

[]

King Gary, Christopher J.L. Murray, Joshua A. Salomon, Ajay Tandon. 2004.Enhancing the Validity and Cross-Cultural Comparability of Measurement in Survey Research.American Political Science Review, 98(1): 191-207.DOI:10.1017/S000305540400108X

[]

Krause Neal M., Gina M. Jay. 1994.What do Global Self-Rated Health Items Measure?.Medical Care, 32(9): 930-942.DOI:10.1097/00005650-199409000-00004

[]

Lindeboom Maarten, Eddy van Doorslaer. 2004.Cut-Point Shift and Index Shift in Self-Reported Health.Journal of Health Economics, 23(6): 1083-1099.DOI:10.1016/j.jhealeco.2004.01.002

[]

Mathers Colin D. 2003.Commentary:Towards Valid and Comparable Measurement of Population Health.Bulletin of the World Health Organization, 81(11): 787-788.

[]

Miilunpalo Seppo, Ilkka Vuori, Pekka Oja, Matti Pasanen, Helka Urponen. 1997.Self-Rated Health Status as a Health Measure:The Predictive Value of Self-Reported Health Status on the Use of Physician Services and on Mortality in the Working-Age Population.Journal of Clinical Epidemiology, 50(5): 517-528.DOI:10.1016/S0895-4356(97)00045-0

[]

Murray Christopher J.L., Lincoln C. Chen. 1992.Understanding Morbidity Change.Population and Development Review, 18(3): 481-503.DOI:10.2307/1973655

[]

Murray, Christopher J. L., Ajay Tandon, Joshua A. Salomon, Colin D. Mathers, and Ritu Sadana. 2002. "New Approaches to Enhance Cross-Population Comparability of Survey Results. "In Summary Measures of Population Health: Concepts, Ethics, Measurement and Applications, edited by Christopher J. L. Murray, Joshua A. Salomon, Colin D. Mathers, and Alan D. Lopez. World Health Organization: Geneva: 421-431.

[]

Radloff Lenore Sawyer. 1977.The CES-D Scale:A Self-Report Depression Scale for Research in the General Population.Applied Psychometric Measurement, 1(3): 385-401.DOI:10.1177/014662167700100306

[]

Sadana, Ritu, Colin D. Mathers, Alan D. Lopez, Christopher J. L. Murray, and Kim Moesgarrd Iburg. 2002. "Comparative Analysis of More than 50 Household Surveys on Health Status. "In Summary Measures of Population Health: Concepts, Ethics, Measurement and Applications, edited by Christopher J. L. Murray, Joshua A. Salomon, Colin D. Mathers, and Alan D. Lopez. World Health Organization: Geneva: 370-386.

[]

Salomon Joshua A., Ajay Tandon, Christopher JL Murray. 2004.Comparability of Self-Rated Health:Cross-Sectional Multi-Country Survey Using Anchoring Vignettes.British Medical Journal.

[]

Sen Amartya. 2002.Health:Perception Versus Observation.British Medical Journal, 324(7342): 860-861.DOI:10.1136/bmj.324.7342.860

[]

Tandon, Christopher J.L. Murray, Joshua A. Salomon, Gary King. 2002.Statistical Models for Enhancing Cross-Population Comparability.Global Programme on Evidence for Health Policy Discussion Paper, 42.

[]

Thomas, Duncan and Elizabeth Frankenberg. 2002. "The Measurement and Interpretation of Health in Social Surveys. "In Summary Measures of Population Health: Concepts, Ethics, Measurement and Applications, edited by Christopher J. L. Murray, Joshua A. Salomon, Colin D. Mathers, and Alan D. Lopez. World Health Organization: Geneva: 387-420.

[]

Van Doorslaer Eddy, Gerdtham Ulf-G.. 2003.Does Inequality in Self-Assessed Health Predict Inequality in Survival by Income? Evidence form Swedish Data.Social Science & Medicine, 57(9): 1621-1629.

[]

World Health Organization. 1946. WHO Definition of Health. Preamble to the Constitution of the World Health Organization as Adopted by the International Health Conference, New York, 19-22 June.

相關知識

Health consciousness and health behavior: the application of a new health consciousness scale
Development and validation of the Chinese Health Literacy Scale for Chronic Care
口腔保健自我效能量表的漢化及其在孕期女性中的信效度檢驗
自評家庭負擔量表應用于神經性厭食患者家庭的信效度研究
Wellness promotion beliefs and practices of pediatric physical therapists
general health是什么意思
肥胖患者飲食行為評估量表的漢化及信效度檢驗
The impact of weight self
Knowledge and Attitude of School Teachers towards Promoting Healthy Lifestyle to Students
Ministry of Health and Welfare, Health Service Bureau, Community Health, Health Promotion and Nutrition Division (1999) Overview of the Results of a Questionnaire on the Actual Situation of Smoking and Health Problems in FY1998.

網址: Reliability and Validity of Self http://www.u1s5d6.cn/newsview1133657.html

推薦資訊