a级片网址,www.一级毛片,日批国产,中文字幕日韩精品有码视频,黄色毛片免费网站,久久久精品午夜免费不卡,天堂福利视频

 首頁 > 新聞 > 國內(nèi) >

醫(yī)療大數(shù)據(jù)專家:淺談醫(yī)學(xué)大數(shù)據(jù)

2015-03-26 10:06:29   作者:   來源:36氪   評論:0  點擊:


  圖六

  圖五和圖六都顯示了最流行的平臺和數(shù)據(jù)處理方式為開源免費的 Hadoop 和 MapReduce。伴隨著他們的潛在成長和承諾程度,可以預(yù)見,Hadoop 和 MapReduce 正在并會繼續(xù)推動和促進(jìn)大數(shù)據(jù)的處理和應(yīng)用。

  在此,我們簡單介紹一下 Hadoop 和 MapReduce 的概念。Hadoop 是一種基于 Java 的分散式數(shù)據(jù)處理框架。它可以提供對儲存在多個硬件設(shè)備上的數(shù)據(jù)進(jìn)行高吞吐率的讀寫。更重要的是,它對大數(shù)據(jù)具有高容錯性 和對并行應(yīng)用程序的高可用性。Hadoop 框架結(jié)構(gòu)由若干名字節(jié)點(NameNode)和數(shù)據(jù)節(jié)點(DataNode)組成。一份數(shù)以萬計,百萬計的大數(shù)據(jù)文件會被分割成更小的文件信息塊儲存在多個數(shù)據(jù)節(jié)點里,可以是任何計算機(jī)硬件設(shè)備。

  有關(guān)這些文件的數(shù)據(jù)屬性資料信息稱作 metadata 則被存儲在名字節(jié)點里(NameNode)。 NameNode 主要管理文件系統(tǒng)的命名空間和客戶端對文件的訪問操作記錄。Hadoop 的框架結(jié)構(gòu)如圖七:

  圖七

  當(dāng)訪問和操作數(shù)據(jù)文件時,客戶端會聯(lián)系名字節(jié)點提取文件信息塊的屬性信息比如位置,文件名等。然后根據(jù)這些屬性信息,客戶端直接從相應(yīng)的數(shù)據(jù)節(jié)點同時讀取數(shù)據(jù)塊。Hadoop 本身具有冗余和復(fù)制功能,保證在單個硬件儲存設(shè)備出現(xiàn)故障時數(shù)據(jù)仍舊能被恢復(fù)而沒有任何損失,比如每個數(shù)據(jù)節(jié)點默認(rèn)擁有3個備份之類。

  此外,在有新數(shù)據(jù)節(jié)點添加到框架中時,Hadoop 還可以自動平衡每個數(shù)據(jù)節(jié)點的數(shù)據(jù)載有量。同樣,名字節(jié)點也可以擁有冗余和復(fù)制功能,用于在單個儲存數(shù)據(jù)屬性信息的名字節(jié)點出現(xiàn)故障時可以恢復(fù)相應(yīng)的數(shù)據(jù)屬性信息。

  MapReduce 則是一種可以用來并行處理大數(shù)據(jù)的編程模型。同一程序在 Hadoop 的框架下可以用各種不同的語言(Java,Ruby,Python 等)按 MapReduce 的編程模型進(jìn)行編寫和運行。其關(guān)鍵就在于三個詞: map,reduce, 和并行處理。我們通過一個例子來理解 MapReduce 的大致工作原理。比如我們有一30個字的字符串“開落花纏落花繞纏開繞笑瓜夜村村舍舍瓜夜藤繞下下藤繞嬉嬉笑娃娃”,任務(wù)是計算每個字出現(xiàn)的次數(shù)。

  最簡單的方法是按序讀取每一個字建立標(biāo)識索引并計算出現(xiàn)的次數(shù)值存入內(nèi)存,如果是新字,值為1,如果是出現(xiàn)過的字則次數(shù)值累加上去。此種方式是按串行的方式進(jìn)行的,所花的時間會隨著字符串的長度和復(fù)雜度程線性增長。當(dāng)字符串是以萬計百萬計時,比如基因組數(shù)據(jù),所花的時間將是相當(dāng)驚人的。 并行處理則能節(jié)約相當(dāng)多的時間。

  我們先把原文件分割到幾個小文件塊,然后對每個小文件塊進(jìn)行字的標(biāo)識索引和附加數(shù)值(這兒不進(jìn)行累計,只是簡單的單次點數(shù)),然后再排序重組把相同字放在一起,然后我們再用縮減法計算出字及其相應(yīng)的出現(xiàn)次數(shù)值。圖八顯示了具體的例子步驟:

  圖八

分享到: 收藏

專題

临西县| 景德镇市| 吉安县| 清水县| 神池县| 建宁县| 徐闻县| 蕲春县| 河北省| 邛崃市| 衡阳市| 开化县| 伊春市| 资中县| 赞皇县| 鸡西市| 刚察县| 通渭县| 宜春市| 黑龙江省| 伊吾县| 福清市| 布尔津县| 大庆市| 耒阳市| 通道| 循化| 双流县| 屏南县| 永昌县| 修水县| 德化县| 东山县| 屏东市| 荣成市| 瓦房店市| 广汉市| 青铜峡市| 景洪市| 麻城市| 西吉县|