a级片网址,www.一级毛片,日批国产,中文字幕日韩精品有码视频,黄色毛片免费网站,久久久精品午夜免费不卡,天堂福利视频

 首頁 > 新聞 > 國內 >

醫(yī)療大數(shù)據(jù)專家:淺談醫(yī)學大數(shù)據(jù)

2015-03-26 10:06:29   作者:   來源:36氪   評論:0  點擊:


  現(xiàn)在無論國內外均出現(xiàn)了移動醫(yī)療熱,所有的創(chuàng)業(yè)團隊和投資公司均把商業(yè)模式指向了最后的醫(yī)療大數(shù)據(jù)分析。但是可以很負責任的說,90%以上的人都不知道醫(yī)療大數(shù)據(jù)分析是什么東西,因此這是一篇掃盲貼,但是僅供專業(yè)人士。文中分析了醫(yī)療大數(shù)據(jù)、它的維度、方法和成本,以及需要的專業(yè)人才。本文無論是對創(chuàng)業(yè)團隊還是投資機構都是非常有指導意義的。

  大數(shù)據(jù)定義及其特征

  大數(shù)據(jù)顧名思義就是數(shù)量極其龐大的數(shù)據(jù)資料。從上世紀80年代開始,每隔40個月世界上儲存的人均科技信息量就會翻倍 (Hibert & Lopez, 2011)。2012年,每天會有2.5EB量的數(shù)據(jù)產(chǎn)生(Andrew & Erik, 2012)。現(xiàn)在2014年,每天會有 2.3ZB 量的數(shù)據(jù)產(chǎn)生(IBM, 2015)。這是一個什么概念? 現(xiàn)在一般我們電腦的硬盤大小都以GB,或者TB為單位了。1GB的容量可以儲存約5.4億的漢字,或者170張普通數(shù)碼相機拍攝的高精度照片,或者300-350首長度為5-6分鐘的MP3歌曲。 那GB和TB, EB,ZB 的關系又是怎樣?

  1ZB=1024EB=10242PB=10243TB=10244GB。如果你有一臺1TB硬盤容量的電腦,那1ZB就是大致等于10億臺電腦的容量, 遠遠超出了我們一般的想象。

  早期,IBM定義了大數(shù)據(jù)的特性有3個:大量性( Volume), 多樣性(Variety), 快速性(Velocity) (Zikopoulos, Eaton, deRooos, Deutsch, & Lapis, 2012)。后來又有學者把價值(Value)加到大數(shù)據(jù)的特性里。隨著時間的推移和人們思考的進一步完善,又有三個大數(shù)據(jù)的特性被提出: 易變性(Variability),準確性(Veracity)和復雜性(Complexity)。

  作者認為價值本質上是數(shù)據(jù)被分析后體現(xiàn)出來的有用信息知識的程度,和其他幾個特性有根本區(qū)別。其他幾個特性可以說是數(shù)據(jù)工作者具體實踐中面臨的挑戰(zhàn),而價值則是征服這些挑戰(zhàn)后獲得的回報。

  大數(shù)據(jù)的6個特性描述如下:

  大量性:一般在大數(shù)據(jù)里,單個文件大量性的級別至少為幾十,幾百GB以上,一調查(Russom, 2013)顯示相當多的機構擁有的數(shù)據(jù)總量在10到99TB之間。用我們傳統(tǒng)的數(shù)據(jù)庫軟件,1GB已經(jīng)可以儲存千萬條有著幾百個變量的數(shù)據(jù)記錄了。

  多樣性:泛指數(shù)據(jù)類型及其來源的多樣化 (Troester, 2012),進一步可以把數(shù)據(jù)結構歸納為結構化(structured),半結構化(semi-structured),和非結構化(unstructured)(SAS, 2014) 。

  快速性:反映在數(shù)據(jù)的快速產(chǎn)生及數(shù)據(jù)變更的頻率上。比如一份哈佛商學院的研究報告稱在2012年時,谷歌每天就需要要處理20PB的數(shù)據(jù)(Harvard Business Review, 2012)。

  易變性:伴隨數(shù)據(jù)快速性的特征,數(shù)據(jù)流還呈現(xiàn)一種波動的特征。不穩(wěn)定的數(shù)據(jù)流會隨著日,季節(jié),特定事件的觸發(fā)出現(xiàn)周期性峰值 (Troester, 2012)。

  準確性:又稱為數(shù)據(jù)保證(data assurance)。不同方式,渠道收集到的數(shù)據(jù)在質量上會有很大差異。數(shù)據(jù)分析和輸出結果的錯誤程度和可信度在很大程度上取決于收集到的數(shù)據(jù)質量的高低(W.Raghupathi & Raghupathi, 2014)。所謂“垃圾進,垃圾出”。沒有數(shù)據(jù)保證,大數(shù)據(jù)分析就毫無意義。

  復雜性:復雜性體現(xiàn)在數(shù)據(jù)的管理和操作上。IT 時代,隨著數(shù)據(jù)來源及數(shù)據(jù)量的爆發(fā),各種不同渠道數(shù)據(jù)的大量涌現(xiàn),數(shù)據(jù)的管理和操作已經(jīng)變得原來越復雜。如何抽取,轉換,加載,連接,關聯(lián)以把握數(shù)據(jù)內蘊的有用信息已經(jīng)變得越來越有挑戰(zhàn)性。

  醫(yī)療大數(shù)據(jù)的爆發(fā)

  早期,大部分醫(yī)療相關數(shù)據(jù)是紙張化的形式存在,而非電子數(shù)據(jù)化存儲, 比如官方的醫(yī)藥記錄,收費記錄,護士醫(yī)生手寫的病例記錄,處方藥記錄,X 光片記錄,磁共振成像(MRI)記錄,CT 影像記錄等等。

  隨著強大的數(shù)據(jù)存儲,計算平臺,及移動互聯(lián)網(wǎng)的發(fā)展,現(xiàn)在的趨勢是醫(yī)療數(shù)據(jù)的大量爆發(fā)及快速的電子數(shù)字化。以上提到的醫(yī)療數(shù)據(jù)都在不同程度上向數(shù)字化轉化。

  有報告顯示,2011年,單單美國的醫(yī)療健康系統(tǒng)數(shù)據(jù)量就達到了150EB。照目前的增長速度,ZB(約 1021GB)和 YB(約 1021GB) 的級別也會很快達到 (IHTT, 2013)。Kaiser Permanente,一個在加州發(fā)展起來的醫(yī)療健康網(wǎng)絡系統(tǒng), 就有9百萬的會員,被認為擁有26.5到44PB的電子健康記錄(IHTT, 2013)。

  IT 時代涌現(xiàn)的還有各種網(wǎng)絡社交媒體數(shù)據(jù),比如曾經(jīng) Google 用來預測流感的數(shù)據(jù);驍(shù)據(jù)也是非常龐大的存在,一次全面的基因測序,產(chǎn)生的個人數(shù)據(jù)則達到300GB(Leah, 2014)。公開發(fā)布的基因 DNA 微陣列達到50萬之多,每一陣列包含數(shù)萬的分子表達值。在生物醫(yī)藥方面,功能性磁共振影像的數(shù)據(jù)量也達到了數(shù)萬TB級別,每一幅影像包含有5萬像素值(Fan, Han, & Liu, 2014)。

  此外,各種健身,健康可穿戴設備的出現(xiàn),使得血壓、心率、體重,血糖,心電圖(EKG)等的監(jiān)測都變?yōu)楝F(xiàn)實和可能,信息的獲取和分析的速度已經(jīng)從原來的按“天”計算,發(fā)展到了按“小時”,按“秒”計算。比如,一家名為 Blue Spark 的科技公司已經(jīng)生產(chǎn)出能24小時實時監(jiān)測體溫的新型溫度計貼片 temptraq。

  這種數(shù)據(jù)的擴展速度和覆蓋范圍是前所未有的,數(shù)據(jù)的格式也五花八門,可能是無格式文件(flat file),CSV,關系表,ASCII/ 純文本文件等等。

  同時,數(shù)據(jù)的來源也紛繁復雜,可能來自不同的地區(qū),不同的醫(yī)療機構,不同的軟件應用。不可否認,一旦理順了多格式,多源頭,呈爆炸性成長的大數(shù)據(jù)的整合和分析,醫(yī)療大數(shù)據(jù)將對提高醫(yī)療質量,強化患者安全,降低風險,降低醫(yī)療成本等方面發(fā)揮無與倫比的巨大作用。

分享到: 收藏

專題

宝山区| 平和县| 中西区| 抚松县| 温州市| 嘉祥县| 夏河县| 清流县| 阿巴嘎旗| 民权县| 温泉县| 荆门市| 泸西县| 邵武市| 宜都市| 沈阳市| 托克托县| 宁化县| 华亭县| 开江县| 比如县| 嘉鱼县| 阿城市| 长武县| 潜江市| 武鸣县| 红安县| 乌拉特中旗| 唐山市| 即墨市| 固原市| 翁源县| 宁陵县| 石台县| 政和县| 新乡市| 娄烦县| 枣强县| 攀枝花市| 宁明县| 高州市|