醫(yī)療健康大數(shù)據(jù)的種類、性質(zhì)及有關(guān)問題
數(shù)據(jù)可利用性中國與西方發(fā)達(dá)國家一樣,正在步入醫(yī)療健康大數(shù)據(jù)時(shí)代,現(xiàn)在,每時(shí)每刻都有大量新的有關(guān)疾病、醫(yī)療和健康的信息在產(chǎn)生和流動,并儲存于某個(gè)地方,等待著被挖掘、分析和應(yīng)用。由于中國是接近于14億人口的大國,人數(shù)占全世界總?cè)藬?shù)的1/5,所以產(chǎn)生積累的醫(yī)學(xué)數(shù)據(jù)量,世界各國無法比擬。截止2013年11月底,全國醫(yī)療機(jī)構(gòu)總數(shù)為96.2萬個(gè)(其中醫(yī)院為2.4萬個(gè),其他醫(yī)療機(jī)構(gòu)為92.3萬個(gè)),2012年全國診療人數(shù)達(dá)69億人次。目前,中國的互聯(lián)網(wǎng)上也正在實(shí)時(shí)產(chǎn)生大量難以計(jì)數(shù)的關(guān)于疾病和健康的信息。特有的巨量醫(yī)療和健康數(shù)據(jù),賦予了中國一個(gè)能接觸并深入了解更多疾病、診療和健康信息的好機(jī)會,但同時(shí)也給數(shù)據(jù)使用者帶來了更嚴(yán)峻的應(yīng)用挑戰(zhàn)。
本文描述和討論了醫(yī)療健康大數(shù)據(jù)的基本概念、種類、性質(zhì)及有關(guān)問題,以便讀者能迅速了解有關(guān)知識,正確利用醫(yī)療健康大數(shù)據(jù),避免出錯(cuò),真正能使有關(guān)各方從大數(shù)據(jù)應(yīng)用中獲益。
1.醫(yī)療健康大數(shù)據(jù)的基本概念
醫(yī)療健康大數(shù)據(jù)泛指所有與醫(yī)療和生命健康相關(guān)的數(shù)字化的極大量數(shù)據(jù)。數(shù)據(jù)究竟大到何種程度才可稱為大數(shù)據(jù),早在九十年代中期,世界著名統(tǒng)計(jì)學(xué)家休伯(Huber P J)就對此進(jìn)行過專門討論[2]。當(dāng)時(shí),休伯建議可按以10為底2為指數(shù)遞增的數(shù)據(jù)存儲單位字節(jié)大小來進(jìn)行劃分,即微小數(shù)據(jù)為102(100字節(jié)),小數(shù)據(jù)為104(10K字節(jié)),中數(shù)據(jù)為106(977K),大數(shù)據(jù)為108(95MB),巨大數(shù)據(jù)為1010(9.3GB),和非常巨大數(shù)據(jù)為1012(932GB≈1TB)。這種數(shù)據(jù)大小按物理存儲單位劃分,雖然屬于人為主觀界定,但顯示了一定合理性,有助于對數(shù)據(jù)源大小的認(rèn)識?,F(xiàn)在,人們對大數(shù)據(jù)有了更深層次的認(rèn)識。狹義上,它被定義為難以用現(xiàn)有的一般技術(shù)管理的大量數(shù)據(jù)的集合;廣義上,它的數(shù)據(jù)量(Volume)含義可以延伸至數(shù)據(jù)的產(chǎn)生速度(Velocity)、多樣性(Variety)和價(jià)值(Value)。擴(kuò)展的大數(shù)據(jù)定義符合于當(dāng)前信息時(shí)代的特點(diǎn),體現(xiàn)了數(shù)據(jù)的更新速度、復(fù)雜性和有用性。
現(xiàn)在有一種說法,似乎只有太字節(jié)那樣大的數(shù)據(jù)才可稱為大數(shù)據(jù),但從實(shí)際應(yīng)用角度,大數(shù)據(jù)的大應(yīng)該為相對的大,特別是當(dāng)數(shù)據(jù)還同時(shí)具備產(chǎn)生速度、多樣性或價(jià)值等其它特征。
理論上,醫(yī)療健康大數(shù)據(jù)可以是涉及一個(gè)國家或地區(qū)全部醫(yī)院或所有人群的數(shù)據(jù),具有幾個(gè)、幾十個(gè)或更多TB甚至PB級的數(shù)據(jù)量,但其實(shí)也可以只是一個(gè)地區(qū)幾家醫(yī)院或一部分健康人群的數(shù)據(jù),甚至更可以只是一個(gè)醫(yī)院的全部臨床醫(yī)療數(shù)據(jù)。關(guān)鍵是,目前一個(gè)中型醫(yī)院1年醫(yī)療數(shù)據(jù)包括影像數(shù)據(jù)等加起來,就可達(dá)到幾十個(gè)TB數(shù)據(jù)量,剔除主要的影像數(shù)據(jù)量后,仍有大概數(shù)百G級以上數(shù)據(jù)量。而且,醫(yī)院很多年份或很多臨床科室數(shù)據(jù)都已可以相互關(guān)聯(lián),使單一醫(yī)院的數(shù)據(jù)性質(zhì)和應(yīng)用價(jià)值獲得突破性提升,完全不同于以往單一年份或單獨(dú)臨床科室的數(shù)據(jù)。所以,不能機(jī)械地光是從數(shù)據(jù)量來界定什么是大數(shù)據(jù),什么不是大數(shù)據(jù),而應(yīng)該同時(shí)考慮是否數(shù)據(jù)性質(zhì)等方面已經(jīng)發(fā)生了根本的變化。
2.醫(yī)療健康大數(shù)據(jù)的種類、性質(zhì)及有關(guān)問題
醫(yī)療健康大數(shù)據(jù)只是一個(gè)籠統(tǒng)的稱呼,有時(shí)候也簡稱為醫(yī)療大數(shù)據(jù)或醫(yī)學(xué)大數(shù)據(jù)。按照
不同來源,醫(yī)療健康大數(shù)據(jù)可以分成醫(yī)院醫(yī)療大數(shù)據(jù)、區(qū)域服務(wù)平臺醫(yī)療健康大數(shù)據(jù)、疾病監(jiān)測大數(shù)據(jù)、自我量化大數(shù)據(jù)、網(wǎng)絡(luò)大數(shù)據(jù)和生物大數(shù)據(jù)等六大類。這些不同種類數(shù)據(jù)具有不同的性質(zhì)、醫(yī)學(xué)價(jià)值及問題。
2.1醫(yī)院的醫(yī)療大數(shù)據(jù)
通常所說的醫(yī)療大數(shù)據(jù)指的就是醫(yī)院醫(yī)療大數(shù)據(jù)。醫(yī)院醫(yī)療數(shù)據(jù)是最主要的醫(yī)療健康大數(shù)據(jù),產(chǎn)生于醫(yī)院常規(guī)臨床診治、科研和管理過程,包括各種門急診記錄、住院記錄、影像記錄、實(shí)驗(yàn)室記錄、用藥記錄、手術(shù)記錄、隨訪記錄和醫(yī)保數(shù)據(jù)等。這些醫(yī)療數(shù)據(jù)中的大多數(shù)都是用醫(yī)學(xué)專業(yè)方式記錄下來的,以臨床實(shí)踐自然隨機(jī)形式存在,是最原始的臨床記錄。從臨床管理或研究角度看,這些數(shù)據(jù)是關(guān)于病人就醫(yī)過程的真實(shí)記錄,或者也可以說是臨床醫(yī)療行為留存的痕跡,每一個(gè)數(shù)據(jù)都是有價(jià)值的,包括記錄不完善或錯(cuò)誤的數(shù)據(jù),都可能隱藏了有待發(fā)掘和利用的重要醫(yī)學(xué)信息。
與其他行業(yè)數(shù)據(jù)比較,醫(yī)療行業(yè)數(shù)據(jù)既重要又特別,不僅數(shù)據(jù)與人的健康、疾病和生命息息相關(guān),而且具有更復(fù)雜的多樣性,以及更多需要研究探討的未知事件。這些特征促使醫(yī)療行業(yè)擁有了一大批醫(yī)學(xué)研究專家和統(tǒng)計(jì)學(xué)家,并由此建立了一系列的數(shù)據(jù)統(tǒng)計(jì)分析方法,開展了各種各樣的醫(yī)學(xué)研究。
醫(yī)療數(shù)據(jù)的復(fù)雜性表現(xiàn)在于,一方面包含了大量的專業(yè)醫(yī)學(xué)用語,光是疾病名稱就有3萬多種,另外還有數(shù)以萬計(jì)的診斷、手術(shù)和藥物名稱,以及大量影像、醫(yī)囑等非結(jié)構(gòu)化數(shù)據(jù)。另一方面,由于醫(yī)療數(shù)據(jù)是不同臨床診療服務(wù)過程中的產(chǎn)物,所以數(shù)據(jù)之間關(guān)系復(fù)雜,并且也很容易會受到各種因素的影響,致使某些數(shù)據(jù)帶有偏倚性。一般來說,醫(yī)院之間在很多方面是會有差別的,比如病人的個(gè)體特征和疾病程度、醫(yī)院的診斷和治療水平、醫(yī)療數(shù)據(jù)的記錄和編碼水平等。如果研究者沒有注意到醫(yī)院間的這些差別,就有可能導(dǎo)致錯(cuò)誤結(jié)論,并進(jìn)一步誤導(dǎo)臨床診治工作。因?yàn)閷<乙话愣挤浅V匾暣髷?shù)據(jù)研究結(jié)果,會立即將其納入臨床診治規(guī)范中加以推廣應(yīng)用。所以大數(shù)據(jù)研究一旦發(fā)生錯(cuò)誤,可能會對臨床實(shí)踐造成巨大損害。另外,除了包含病人隱私信息,醫(yī)療數(shù)據(jù)也包含了大量關(guān)于醫(yī)院運(yùn)轉(zhuǎn)、診療方法、藥物療效等信息。這些信息一般都很敏感,某些可能會涉及商業(yè)利益,有時(shí)候,即使分析很到位,但如果解釋不嚴(yán)謹(jǐn),仍會引發(fā)爭議,甚至導(dǎo)致法律糾紛。
2.2依托區(qū)域健康服務(wù)平臺的醫(yī)療健康大數(shù)據(jù)
依托于區(qū)域健康服務(wù)平臺的大數(shù)據(jù)是重要的醫(yī)療健康大數(shù)據(jù)之一,也是未來醫(yī)療健康大數(shù)據(jù)的發(fā)展方向。一方面,服務(wù)平臺匯集整合了區(qū)域內(nèi)很多家醫(yī)院和相關(guān)醫(yī)療機(jī)構(gòu)的醫(yī)療健康數(shù)據(jù),致使數(shù)據(jù)量大幅度增加。另一方面,服務(wù)平臺數(shù)據(jù)的收集事先都經(jīng)過充分的科學(xué)論證和規(guī)劃,數(shù)據(jù)比原先的醫(yī)院數(shù)據(jù)更為規(guī)范。
區(qū)域健康服務(wù)平臺在我國已經(jīng)起步,正在往深度發(fā)展。目前,有些服務(wù)平臺是由政府管理部門委托建立,有些是由第三方IT公司建立。兩者雖然都有同樣目的,即通過整合各醫(yī)院診療數(shù)據(jù),使病人就診數(shù)據(jù)在不同醫(yī)院之間可以互相交流,但第三方服務(wù)平臺更為創(chuàng)新一點(diǎn),正在嘗試針對重點(diǎn)疾病和特殊人群,打造基于醫(yī)療圈的個(gè)性化診療模式、基于健康圈的個(gè)性化健康管理與促進(jìn)模式等。第三方服務(wù)平臺中的數(shù)據(jù)及內(nèi)容在醫(yī)學(xué)上會更為合理、有用。健康服務(wù)平臺的大數(shù)據(jù)具有地區(qū)人群代表性,研究結(jié)果適用于當(dāng)?shù)厝巳?。然而,即使在同一區(qū)域內(nèi),醫(yī)院之間的某些差別,尤其是病人個(gè)體特征和醫(yī)院診療水平等差別,依然存在,需要特別注意。
2.3基于大量人群的醫(yī)學(xué)研究或疾病監(jiān)測的大數(shù)據(jù)
除了上述原生態(tài)醫(yī)療大數(shù)據(jù)以外,另有一些醫(yī)療健康大數(shù)據(jù)來自于專門設(shè)計(jì)的基于大量人群的醫(yī)學(xué)研究或疾病監(jiān)測。例如國家衛(wèi)生部近年開展的腦卒中篩查與防治項(xiàng)目,計(jì)劃在全國各地篩檢100萬腦卒中高危人群,隨后對篩檢出的高危人群的疾病及其治療后果進(jìn)行長期追蹤。另一項(xiàng)近年剛啟動的重大專項(xiàng)研究是,中國環(huán)境與遺傳因素及其交互作用對冠心病和缺血性腦卒中影響的超大型隊(duì)列研究,其包括了50余萬人的自然人群,評估遺傳和環(huán)境危險(xiǎn)因素及其復(fù)雜的交互作用。專項(xiàng)設(shè)計(jì)的大數(shù)據(jù)還包括各種全國性抽樣調(diào)查和疾病監(jiān)測數(shù)據(jù),比如全國營養(yǎng)和健康調(diào)查、出生缺陷監(jiān)測研究、傳染病及腫瘤登記報(bào)告等數(shù)據(jù)。因?yàn)檫@些研究或監(jiān)測都是經(jīng)過仔細(xì)的專業(yè)設(shè)計(jì),所以數(shù)據(jù)內(nèi)容較多,數(shù)據(jù)質(zhì)量也較高,能夠?qū)е螺^為理想的研究結(jié)果。這些專項(xiàng)大數(shù)據(jù)與醫(yī)療過程數(shù)據(jù)相互融合后,可在疾病治療和預(yù)防中發(fā)揮更大的作用,但是這些大數(shù)據(jù)只限于局部人群,純屬研究目的,無法對全國范圍人群或整個(gè)地區(qū)人群的疾病進(jìn)行個(gè)性化診療和防控。
2.4自我量化大數(shù)據(jù)
基于移動物聯(lián)網(wǎng)的個(gè)人身體體征和活動的自我量化數(shù)據(jù)是一種新型的醫(yī)療健康大數(shù)據(jù)。自我量化數(shù)據(jù)包含了血壓、心跳、血糖、呼吸、睡眠、體育鍛煉等信息,除了有利于幫助了解自身健康狀況以外,經(jīng)過一定時(shí)期累積,在醫(yī)學(xué)上會變得很有用,不僅有助于識別疾病病因或防控疾病,而且也有助于個(gè)性化臨床診療,塑造全新的醫(yī)療或健康管理模式。
2.5網(wǎng)絡(luò)大數(shù)據(jù)
網(wǎng)絡(luò)大數(shù)據(jù)指的是互聯(lián)網(wǎng)上與醫(yī)學(xué)相關(guān)的各種數(shù)據(jù)。經(jīng)常,這類網(wǎng)絡(luò)大數(shù)據(jù)被與其他各類醫(yī)療健康大數(shù)據(jù)混為一談,造成了對大數(shù)據(jù)效用的誤解。網(wǎng)絡(luò)大數(shù)據(jù)產(chǎn)生于社交互聯(lián)網(wǎng)關(guān)于疾病、健康或?qū)めt(yī)的話題、互聯(lián)網(wǎng)上購藥行為、健康網(wǎng)站訪問行為等等。網(wǎng)絡(luò)大數(shù)據(jù)非常雜亂無章,同一主題的數(shù)據(jù)既可來自于同一網(wǎng)站眾多不同的網(wǎng)絡(luò)用戶,也可來自大量不同的網(wǎng)站,而且又會包含大量音視頻、圖片、文本等異構(gòu)性數(shù)據(jù)。與自我量化等數(shù)據(jù)相比較,網(wǎng)絡(luò)大數(shù)據(jù)是被動性存在,隨機(jī)性很大,數(shù)據(jù)中蘊(yùn)含的信息缺乏穩(wěn)定性。由于信息噪聲很高,缺乏醫(yī)學(xué)專業(yè)規(guī)律,所以大部分?jǐn)?shù)據(jù)都不會有醫(yī)學(xué)價(jià)值。即使少部分可被用于挖掘分析,但也必須要了解,除非經(jīng)過專業(yè)設(shè)計(jì),一般來說,上傳信息的網(wǎng)絡(luò)使用者只代表了全部人群中一小部分特殊人群,比如只代表了部分年輕人、嗜好上網(wǎng)者、疾病焦慮者、久病不治者、或特別關(guān)注健康者。
包羅萬象的網(wǎng)絡(luò)大數(shù)據(jù)目前被發(fā)現(xiàn)最有用的醫(yī)學(xué)價(jià)值是對疾病傳播的監(jiān)控和預(yù)防。最著名的例子是谷歌利用搜索引擎內(nèi)容分析來預(yù)測全球范圍流感傳播狀況,通過提前確定未知疾病流行,為疫情控制爭取時(shí)間。但谷歌流感趨勢研究由于預(yù)測結(jié)果不穩(wěn)定而受到了廣泛質(zhì)疑。谷歌出錯(cuò)的主要原因是內(nèi)容搜索者不一定是患病者,再加上地理位置的不準(zhǔn)確。相對于谷歌的被動監(jiān)測,一些國家的流行病學(xué)專家正在改用主動監(jiān)測,即鼓勵(lì)普通民眾利用網(wǎng)絡(luò)主動報(bào)告自己或家人的流感疑似癥狀。這種經(jīng)過專業(yè)設(shè)計(jì)的基于特定目的的全球或全國網(wǎng)絡(luò)大數(shù)據(jù),雖然數(shù)據(jù)量會遠(yuǎn)低于基于搜索內(nèi)容的網(wǎng)絡(luò)大數(shù)據(jù),但數(shù)據(jù)質(zhì)量獲得了極大提升,可以與變動監(jiān)測結(jié)果一起,作為官方傳統(tǒng)的流感監(jiān)測系統(tǒng)的補(bǔ)充。
2.6生物信息大數(shù)據(jù)
生物信息大數(shù)據(jù)是一類比較特殊的醫(yī)療健康大數(shù)據(jù)。這類數(shù)據(jù)具有很強(qiáng)的生物專業(yè)性,主要是關(guān)于生物標(biāo)本和基因測序的信息。雖然在信息內(nèi)容表達(dá)方式上,生物信息大數(shù)據(jù)與上述所有大數(shù)據(jù)大不相同,但它直接關(guān)系到臨床的個(gè)性化診療及精準(zhǔn)醫(yī)療,所以可歸入醫(yī)療健康大數(shù)據(jù)一類。生物信息數(shù)量巨大,據(jù)估計(jì),人類基因測序一次,產(chǎn)生的數(shù)據(jù)量可高達(dá)100至600個(gè)G左右。生物信息大數(shù)據(jù)目前面臨的最大難題是,如何能使標(biāo)本及數(shù)據(jù)標(biāo)準(zhǔn)化、測定結(jié)果實(shí)用化、以及測定結(jié)果與病人臨床數(shù)據(jù)的無縫連接等。
3結(jié)語
綜上所述,醫(yī)學(xué)是一門經(jīng)驗(yàn)學(xué)科,各路醫(yī)療健康大數(shù)據(jù)提供了一個(gè)能迅速獲取大量醫(yī)學(xué)經(jīng)驗(yàn)和知識的機(jī)會,另外也提供了一個(gè)能更為可靠地解決各種醫(yī)學(xué)問題的新途徑,造福于患者并保障人民健康。然而,不同種類的醫(yī)療健康大數(shù)據(jù)的性質(zhì)是不同的,并且它們的價(jià)值和問題也是不同的。在進(jìn)行醫(yī)療大數(shù)據(jù)分析前,數(shù)據(jù)分析者應(yīng)該對不同類型的數(shù)據(jù)進(jìn)行有效甄別,同時(shí)由于醫(yī)療健康數(shù)據(jù)屬于復(fù)雜和敏感類數(shù)據(jù),所以使用者一方面需要具備足夠的專業(yè)知識,另一方面也需要抱有謹(jǐn)慎小心的態(tài)度。
看方案、學(xué)案例、找產(chǎn)品、尋專家,學(xué)習(xí)培訓(xùn)、下載報(bào)告、參加會議,發(fā)布企業(yè)產(chǎn)品、宣傳企業(yè)方案、推廣大數(shù)據(jù)活動、開展大數(shù)據(jù)培訓(xùn),請搜索“數(shù)邦客”或(databankers)微信公眾號或掃描右側(cè)二維碼關(guān)注我們!
聯(lián)系我們請點(diǎn)擊:http://www.databanker.cn/contactUs/Index.html
QQ群:8994580加入QQ群
微信群:請關(guān)注“數(shù)邦客”公眾號,并加群主(liudan-85)入群
若您覺得本條信息不錯(cuò),請動動手指分享給其它好友。
免責(zé)聲明:數(shù)據(jù)資產(chǎn)網(wǎng)(www.databanker.cn)除非特別注明,本站所載內(nèi)容來源于互聯(lián)網(wǎng)、微信公眾號等公開渠道,不代表本站觀點(diǎn),僅供參考、交流之目的。轉(zhuǎn)載的稿件版權(quán)歸原作者或機(jī)構(gòu)所有,如有侵權(quán),請聯(lián)系刪除。
相關(guān)知識
19 個(gè)頂級醫(yī)療保健數(shù)據(jù)集:機(jī)器學(xué)習(xí)項(xiàng)目的關(guān)鍵開放數(shù)據(jù)集
國內(nèi)外健康醫(yī)療大數(shù)據(jù)建設(shè)及應(yīng)用發(fā)展現(xiàn)狀分析
關(guān)于疫苗及接種的7大科學(xué)問題
大數(shù)據(jù)為健康醫(yī)療賦效能
數(shù)據(jù)顯示過度醫(yī)療問題仍需引起重視,如何進(jìn)行協(xié)同治理?
健康大數(shù)據(jù),從而開啟醫(yī)療保健新契機(jī)
國家數(shù)據(jù)局:盡快推進(jìn)一批醫(yī)療健康試點(diǎn),加快數(shù)據(jù)要素開發(fā)利用
人工智能與醫(yī)療健康產(chǎn)業(yè)系列研究之七:人工智能醫(yī)用軟件的注冊及監(jiān)管問題
女性最關(guān)心的6大減肥問題,一定有一個(gè)是你想問的!
李克強(qiáng):從老百姓迫切需求領(lǐng)域發(fā)展健康醫(yī)療大數(shù)據(jù)
網(wǎng)址: 醫(yī)療健康大數(shù)據(jù)的種類、性質(zhì)及有關(guān)問題 http://www.u1s5d6.cn/newsview43383.html
推薦資訊
- 1發(fā)朋友圈對老公徹底失望的心情 12775
- 2BMI體重指數(shù)計(jì)算公式是什么 11235
- 3補(bǔ)腎吃什么 補(bǔ)腎最佳食物推薦 11199
- 4性生活姿勢有哪些 盤點(diǎn)夫妻性 10425
- 5BMI正常值范圍一般是多少? 10137
- 6在線基礎(chǔ)代謝率(BMR)計(jì)算 9652
- 7一邊做飯一邊躁狂怎么辦 9138
- 8從出汗看健康 出汗透露你的健 9063
- 9早上怎么喝水最健康? 8613
- 10五大原因危害女性健康 如何保 7826