首頁 資訊 醫(yī)療健康大數(shù)據(jù)的種類、性質及有關問題

醫(yī)療健康大數(shù)據(jù)的種類、性質及有關問題

來源:泰然健康網(wǎng) 時間:2024年11月24日 01:14

    數(shù)據(jù)可利用性中國與西方發(fā)達國家一樣,正在步入醫(yī)療健康大數(shù)據(jù)時代,現(xiàn)在,每時每刻都有大量新的有關疾病、醫(yī)療和健康的信息在產(chǎn)生和流動,并儲存于某個地方,等待著被挖掘、分析和應用。由于中國是接近于14億人口的大國,人數(shù)占全世界總人數(shù)的1/5,所以產(chǎn)生積累的醫(yī)學數(shù)據(jù)量,世界各國無法比擬。截止2013年11月底,全國醫(yī)療機構總數(shù)為96.2萬個(其中醫(yī)院為2.4萬個,其他醫(yī)療機構為92.3萬個),2012年全國診療人數(shù)達69億人次。目前,中國的互聯(lián)網(wǎng)上也正在實時產(chǎn)生大量難以計數(shù)的關于疾病和健康的信息。特有的巨量醫(yī)療和健康數(shù)據(jù),賦予了中國一個能接觸并深入了解更多疾病、診療和健康信息的好機會,但同時也給數(shù)據(jù)使用者帶來了更嚴峻的應用挑戰(zhàn)。

  本文描述和討論了醫(yī)療健康大數(shù)據(jù)的基本概念、種類、性質及有關問題,以便讀者能迅速了解有關知識,正確利用醫(yī)療健康大數(shù)據(jù),避免出錯,真正能使有關各方從大數(shù)據(jù)應用中獲益。

  1.醫(yī)療健康大數(shù)據(jù)的基本概念

  醫(yī)療健康大數(shù)據(jù)泛指所有與醫(yī)療和生命健康相關的數(shù)字化的極大量數(shù)據(jù)。數(shù)據(jù)究竟大到何種程度才可稱為大數(shù)據(jù),早在九十年代中期,世界著名統(tǒng)計學家休伯(Huber P J)就對此進行過專門討論[2]。當時,休伯建議可按以10為底2為指數(shù)遞增的數(shù)據(jù)存儲單位字節(jié)大小來進行劃分,即微小數(shù)據(jù)為102(100字節(jié)),小數(shù)據(jù)為104(10K字節(jié)),中數(shù)據(jù)為106(977K),大數(shù)據(jù)為108(95MB),巨大數(shù)據(jù)為1010(9.3GB),和非常巨大數(shù)據(jù)為1012(932GB≈1TB)。這種數(shù)據(jù)大小按物理存儲單位劃分,雖然屬于人為主觀界定,但顯示了一定合理性,有助于對數(shù)據(jù)源大小的認識。現(xiàn)在,人們對大數(shù)據(jù)有了更深層次的認識。狹義上,它被定義為難以用現(xiàn)有的一般技術管理的大量數(shù)據(jù)的集合;廣義上,它的數(shù)據(jù)量(Volume)含義可以延伸至數(shù)據(jù)的產(chǎn)生速度(Velocity)、多樣性(Variety)和價值(Value)。擴展的大數(shù)據(jù)定義符合于當前信息時代的特點,體現(xiàn)了數(shù)據(jù)的更新速度、復雜性和有用性。

  現(xiàn)在有一種說法,似乎只有太字節(jié)那樣大的數(shù)據(jù)才可稱為大數(shù)據(jù),但從實際應用角度,大數(shù)據(jù)的大應該為相對的大,特別是當數(shù)據(jù)還同時具備產(chǎn)生速度、多樣性或價值等其它特征。

  理論上,醫(yī)療健康大數(shù)據(jù)可以是涉及一個國家或地區(qū)全部醫(yī)院或所有人群的數(shù)據(jù),具有幾個、幾十個或更多TB甚至PB級的數(shù)據(jù)量,但其實也可以只是一個地區(qū)幾家醫(yī)院或一部分健康人群的數(shù)據(jù),甚至更可以只是一個醫(yī)院的全部臨床醫(yī)療數(shù)據(jù)。關鍵是,目前一個中型醫(yī)院1年醫(yī)療數(shù)據(jù)包括影像數(shù)據(jù)等加起來,就可達到幾十個TB數(shù)據(jù)量,剔除主要的影像數(shù)據(jù)量后,仍有大概數(shù)百G級以上數(shù)據(jù)量。而且,醫(yī)院很多年份或很多臨床科室數(shù)據(jù)都已可以相互關聯(lián),使單一醫(yī)院的數(shù)據(jù)性質和應用價值獲得突破性提升,完全不同于以往單一年份或單獨臨床科室的數(shù)據(jù)。所以,不能機械地光是從數(shù)據(jù)量來界定什么是大數(shù)據(jù),什么不是大數(shù)據(jù),而應該同時考慮是否數(shù)據(jù)性質等方面已經(jīng)發(fā)生了根本的變化。

  2.醫(yī)療健康大數(shù)據(jù)的種類、性質及有關問題

  醫(yī)療健康大數(shù)據(jù)只是一個籠統(tǒng)的稱呼,有時候也簡稱為醫(yī)療大數(shù)據(jù)或醫(yī)學大數(shù)據(jù)。按照

  不同來源,醫(yī)療健康大數(shù)據(jù)可以分成醫(yī)院醫(yī)療大數(shù)據(jù)、區(qū)域服務平臺醫(yī)療健康大數(shù)據(jù)、疾病監(jiān)測大數(shù)據(jù)、自我量化大數(shù)據(jù)、網(wǎng)絡大數(shù)據(jù)和生物大數(shù)據(jù)等六大類。這些不同種類數(shù)據(jù)具有不同的性質、醫(yī)學價值及問題。

  2.1醫(yī)院的醫(yī)療大數(shù)據(jù)

  通常所說的醫(yī)療大數(shù)據(jù)指的就是醫(yī)院醫(yī)療大數(shù)據(jù)。醫(yī)院醫(yī)療數(shù)據(jù)是最主要的醫(yī)療健康大數(shù)據(jù),產(chǎn)生于醫(yī)院常規(guī)臨床診治、科研和管理過程,包括各種門急診記錄、住院記錄、影像記錄、實驗室記錄、用藥記錄、手術記錄、隨訪記錄和醫(yī)保數(shù)據(jù)等。這些醫(yī)療數(shù)據(jù)中的大多數(shù)都是用醫(yī)學專業(yè)方式記錄下來的,以臨床實踐自然隨機形式存在,是最原始的臨床記錄。從臨床管理或研究角度看,這些數(shù)據(jù)是關于病人就醫(yī)過程的真實記錄,或者也可以說是臨床醫(yī)療行為留存的痕跡,每一個數(shù)據(jù)都是有價值的,包括記錄不完善或錯誤的數(shù)據(jù),都可能隱藏了有待發(fā)掘和利用的重要醫(yī)學信息。

  與其他行業(yè)數(shù)據(jù)比較,醫(yī)療行業(yè)數(shù)據(jù)既重要又特別,不僅數(shù)據(jù)與人的健康、疾病和生命息息相關,而且具有更復雜的多樣性,以及更多需要研究探討的未知事件。這些特征促使醫(yī)療行業(yè)擁有了一大批醫(yī)學研究專家和統(tǒng)計學家,并由此建立了一系列的數(shù)據(jù)統(tǒng)計分析方法,開展了各種各樣的醫(yī)學研究。

  醫(yī)療數(shù)據(jù)的復雜性表現(xiàn)在于,一方面包含了大量的專業(yè)醫(yī)學用語,光是疾病名稱就有3萬多種,另外還有數(shù)以萬計的診斷、手術和藥物名稱,以及大量影像、醫(yī)囑等非結構化數(shù)據(jù)。另一方面,由于醫(yī)療數(shù)據(jù)是不同臨床診療服務過程中的產(chǎn)物,所以數(shù)據(jù)之間關系復雜,并且也很容易會受到各種因素的影響,致使某些數(shù)據(jù)帶有偏倚性。一般來說,醫(yī)院之間在很多方面是會有差別的,比如病人的個體特征和疾病程度、醫(yī)院的診斷和治療水平、醫(yī)療數(shù)據(jù)的記錄和編碼水平等。如果研究者沒有注意到醫(yī)院間的這些差別,就有可能導致錯誤結論,并進一步誤導臨床診治工作。因為專家一般都非常重視大數(shù)據(jù)研究結果,會立即將其納入臨床診治規(guī)范中加以推廣應用。所以大數(shù)據(jù)研究一旦發(fā)生錯誤,可能會對臨床實踐造成巨大損害。另外,除了包含病人隱私信息,醫(yī)療數(shù)據(jù)也包含了大量關于醫(yī)院運轉、診療方法、藥物療效等信息。這些信息一般都很敏感,某些可能會涉及商業(yè)利益,有時候,即使分析很到位,但如果解釋不嚴謹,仍會引發(fā)爭議,甚至導致法律糾紛。

  2.2依托區(qū)域健康服務平臺的醫(yī)療健康大數(shù)據(jù)

  依托于區(qū)域健康服務平臺的大數(shù)據(jù)是重要的醫(yī)療健康大數(shù)據(jù)之一,也是未來醫(yī)療健康大數(shù)據(jù)的發(fā)展方向。一方面,服務平臺匯集整合了區(qū)域內很多家醫(yī)院和相關醫(yī)療機構的醫(yī)療健康數(shù)據(jù),致使數(shù)據(jù)量大幅度增加。另一方面,服務平臺數(shù)據(jù)的收集事先都經(jīng)過充分的科學論證和規(guī)劃,數(shù)據(jù)比原先的醫(yī)院數(shù)據(jù)更為規(guī)范。

  區(qū)域健康服務平臺在我國已經(jīng)起步,正在往深度發(fā)展。目前,有些服務平臺是由政府管理部門委托建立,有些是由第三方IT公司建立。兩者雖然都有同樣目的,即通過整合各醫(yī)院診療數(shù)據(jù),使病人就診數(shù)據(jù)在不同醫(yī)院之間可以互相交流,但第三方服務平臺更為創(chuàng)新一點,正在嘗試針對重點疾病和特殊人群,打造基于醫(yī)療圈的個性化診療模式、基于健康圈的個性化健康管理與促進模式等。第三方服務平臺中的數(shù)據(jù)及內容在醫(yī)學上會更為合理、有用。健康服務平臺的大數(shù)據(jù)具有地區(qū)人群代表性,研究結果適用于當?shù)厝巳骸H欢?,即使在同一區(qū)域內,醫(yī)院之間的某些差別,尤其是病人個體特征和醫(yī)院診療水平等差別,依然存在,需要特別注意。

  2.3基于大量人群的醫(yī)學研究或疾病監(jiān)測的大數(shù)據(jù)

  除了上述原生態(tài)醫(yī)療大數(shù)據(jù)以外,另有一些醫(yī)療健康大數(shù)據(jù)來自于專門設計的基于大量人群的醫(yī)學研究或疾病監(jiān)測。例如國家衛(wèi)生部近年開展的腦卒中篩查與防治項目,計劃在全國各地篩檢100萬腦卒中高危人群,隨后對篩檢出的高危人群的疾病及其治療后果進行長期追蹤。另一項近年剛啟動的重大專項研究是,中國環(huán)境與遺傳因素及其交互作用對冠心病和缺血性腦卒中影響的超大型隊列研究,其包括了50余萬人的自然人群,評估遺傳和環(huán)境危險因素及其復雜的交互作用。專項設計的大數(shù)據(jù)還包括各種全國性抽樣調查和疾病監(jiān)測數(shù)據(jù),比如全國營養(yǎng)和健康調查、出生缺陷監(jiān)測研究、傳染病及腫瘤登記報告等數(shù)據(jù)。因為這些研究或監(jiān)測都是經(jīng)過仔細的專業(yè)設計,所以數(shù)據(jù)內容較多,數(shù)據(jù)質量也較高,能夠導致較為理想的研究結果。這些專項大數(shù)據(jù)與醫(yī)療過程數(shù)據(jù)相互融合后,可在疾病治療和預防中發(fā)揮更大的作用,但是這些大數(shù)據(jù)只限于局部人群,純屬研究目的,無法對全國范圍人群或整個地區(qū)人群的疾病進行個性化診療和防控。

  2.4自我量化大數(shù)據(jù)

  基于移動物聯(lián)網(wǎng)的個人身體體征和活動的自我量化數(shù)據(jù)是一種新型的醫(yī)療健康大數(shù)據(jù)。自我量化數(shù)據(jù)包含了血壓、心跳、血糖、呼吸、睡眠、體育鍛煉等信息,除了有利于幫助了解自身健康狀況以外,經(jīng)過一定時期累積,在醫(yī)學上會變得很有用,不僅有助于識別疾病病因或防控疾病,而且也有助于個性化臨床診療,塑造全新的醫(yī)療或健康管理模式。

  2.5網(wǎng)絡大數(shù)據(jù)

  網(wǎng)絡大數(shù)據(jù)指的是互聯(lián)網(wǎng)上與醫(yī)學相關的各種數(shù)據(jù)。經(jīng)常,這類網(wǎng)絡大數(shù)據(jù)被與其他各類醫(yī)療健康大數(shù)據(jù)混為一談,造成了對大數(shù)據(jù)效用的誤解。網(wǎng)絡大數(shù)據(jù)產(chǎn)生于社交互聯(lián)網(wǎng)關于疾病、健康或尋醫(yī)的話題、互聯(lián)網(wǎng)上購藥行為、健康網(wǎng)站訪問行為等等。網(wǎng)絡大數(shù)據(jù)非常雜亂無章,同一主題的數(shù)據(jù)既可來自于同一網(wǎng)站眾多不同的網(wǎng)絡用戶,也可來自大量不同的網(wǎng)站,而且又會包含大量音視頻、圖片、文本等異構性數(shù)據(jù)。與自我量化等數(shù)據(jù)相比較,網(wǎng)絡大數(shù)據(jù)是被動性存在,隨機性很大,數(shù)據(jù)中蘊含的信息缺乏穩(wěn)定性。由于信息噪聲很高,缺乏醫(yī)學專業(yè)規(guī)律,所以大部分數(shù)據(jù)都不會有醫(yī)學價值。即使少部分可被用于挖掘分析,但也必須要了解,除非經(jīng)過專業(yè)設計,一般來說,上傳信息的網(wǎng)絡使用者只代表了全部人群中一小部分特殊人群,比如只代表了部分年輕人、嗜好上網(wǎng)者、疾病焦慮者、久病不治者、或特別關注健康者。

  包羅萬象的網(wǎng)絡大數(shù)據(jù)目前被發(fā)現(xiàn)最有用的醫(yī)學價值是對疾病傳播的監(jiān)控和預防。最著名的例子是谷歌利用搜索引擎內容分析來預測全球范圍流感傳播狀況,通過提前確定未知疾病流行,為疫情控制爭取時間。但谷歌流感趨勢研究由于預測結果不穩(wěn)定而受到了廣泛質疑。谷歌出錯的主要原因是內容搜索者不一定是患病者,再加上地理位置的不準確。相對于谷歌的被動監(jiān)測,一些國家的流行病學專家正在改用主動監(jiān)測,即鼓勵普通民眾利用網(wǎng)絡主動報告自己或家人的流感疑似癥狀。這種經(jīng)過專業(yè)設計的基于特定目的的全球或全國網(wǎng)絡大數(shù)據(jù),雖然數(shù)據(jù)量會遠低于基于搜索內容的網(wǎng)絡大數(shù)據(jù),但數(shù)據(jù)質量獲得了極大提升,可以與變動監(jiān)測結果一起,作為官方傳統(tǒng)的流感監(jiān)測系統(tǒng)的補充。

  2.6生物信息大數(shù)據(jù)

  生物信息大數(shù)據(jù)是一類比較特殊的醫(yī)療健康大數(shù)據(jù)。這類數(shù)據(jù)具有很強的生物專業(yè)性,主要是關于生物標本和基因測序的信息。雖然在信息內容表達方式上,生物信息大數(shù)據(jù)與上述所有大數(shù)據(jù)大不相同,但它直接關系到臨床的個性化診療及精準醫(yī)療,所以可歸入醫(yī)療健康大數(shù)據(jù)一類。生物信息數(shù)量巨大,據(jù)估計,人類基因測序一次,產(chǎn)生的數(shù)據(jù)量可高達100至600個G左右。生物信息大數(shù)據(jù)目前面臨的最大難題是,如何能使標本及數(shù)據(jù)標準化、測定結果實用化、以及測定結果與病人臨床數(shù)據(jù)的無縫連接等。

  3結語

  綜上所述,醫(yī)學是一門經(jīng)驗學科,各路醫(yī)療健康大數(shù)據(jù)提供了一個能迅速獲取大量醫(yī)學經(jīng)驗和知識的機會,另外也提供了一個能更為可靠地解決各種醫(yī)學問題的新途徑,造福于患者并保障人民健康。然而,不同種類的醫(yī)療健康大數(shù)據(jù)的性質是不同的,并且它們的價值和問題也是不同的。在進行醫(yī)療大數(shù)據(jù)分析前,數(shù)據(jù)分析者應該對不同類型的數(shù)據(jù)進行有效甄別,同時由于醫(yī)療健康數(shù)據(jù)屬于復雜和敏感類數(shù)據(jù),所以使用者一方面需要具備足夠的專業(yè)知識,另一方面也需要抱有謹慎小心的態(tài)度。

看方案、學案例、找產(chǎn)品、尋專家,學習培訓、下載報告、參加會議,發(fā)布企業(yè)產(chǎn)品、宣傳企業(yè)方案、推廣大數(shù)據(jù)活動、開展大數(shù)據(jù)培訓,請搜索“數(shù)邦客”或(databankers)微信公眾號或掃描右側二維碼關注我們!
數(shù)邦客微信二維碼聯(lián)系我們請點擊:http://www.databanker.cn/contactUs/Index.html
QQ群:8994580加入QQ群
微信群:請關注“數(shù)邦客”公眾號,并加群主(liudan-85)入群
若您覺得本條信息不錯,請動動手指分享給其它好友。

免責聲明:數(shù)據(jù)資產(chǎn)網(wǎng)(www.databanker.cn)除非特別注明,本站所載內容來源于互聯(lián)網(wǎng)、微信公眾號等公開渠道,不代表本站觀點,僅供參考、交流之目的。轉載的稿件版權歸原作者或機構所有,如有侵權,請聯(lián)系刪除。

相關知識

19 個頂級醫(yī)療保健數(shù)據(jù)集:機器學習項目的關鍵開放數(shù)據(jù)集
國內外健康醫(yī)療大數(shù)據(jù)建設及應用發(fā)展現(xiàn)狀分析
關于疫苗及接種的7大科學問題
大數(shù)據(jù)為健康醫(yī)療賦效能
數(shù)據(jù)顯示過度醫(yī)療問題仍需引起重視,如何進行協(xié)同治理?
健康大數(shù)據(jù),從而開啟醫(yī)療保健新契機
國家數(shù)據(jù)局:盡快推進一批醫(yī)療健康試點,加快數(shù)據(jù)要素開發(fā)利用
人工智能與醫(yī)療健康產(chǎn)業(yè)系列研究之七:人工智能醫(yī)用軟件的注冊及監(jiān)管問題
女性最關心的6大減肥問題,一定有一個是你想問的!
李克強:從老百姓迫切需求領域發(fā)展健康醫(yī)療大數(shù)據(jù)

網(wǎng)址: 醫(yī)療健康大數(shù)據(jù)的種類、性質及有關問題 http://www.u1s5d6.cn/newsview43383.html

推薦資訊