a级片网址,www.一级毛片,日批国产,中文字幕日韩精品有码视频,黄色毛片免费网站,久久久精品午夜免费不卡,天堂福利视频

您當(dāng)前的位置是:  首頁 > 資訊 > 文章精選 >
 首頁 > 資訊 > 文章精選 >

數(shù)據(jù)湖是什么?它會(huì)持續(xù)"溫而不火"還是即將"破繭成蝶"?

2019-08-08 09:40:15   作者:張彥龍   來源:CTI論壇   評(píng)論:0  點(diǎn)擊:


  一、概述
  自2014年開始,data lake(數(shù)據(jù)湖)這個(gè)概念就出現(xiàn)了,一直持續(xù)發(fā)展,雖然各大云商也相繼推出了自己的產(chǎn)品,如Amazon AWS、Google Cloud、Microsoft Azure等,但數(shù)據(jù)湖的發(fā)展可以用“不溫不火”來形容。
  這篇文章,帶大家一探data lake為何物,為何有機(jī)會(huì)發(fā)展,而又鵝行鴨步背后有何邏輯!
  Data lake到底是什么?面對(duì)如此簡(jiǎn)單的一問,江湖各家大廠家卻是各執(zhí)一詞,撲朔迷離。各家的思路基本上就是把已有的基礎(chǔ)產(chǎn)品再包裝,形成非面向業(yè)務(wù)場(chǎng)景的松散解決方案。
  如Amazon AWS把data lake包裝為: S3存儲(chǔ)、數(shù)據(jù)目錄、數(shù)據(jù)冷備;并輔之以數(shù)據(jù)移動(dòng)工具、數(shù)據(jù)分析工具、機(jī)器學(xué)習(xí)工具。
  而部分廠商更愿意把它定義為hadoop本身…
  既然沒有明確的功能定義,從理論層面探索data lake就變的沒什么實(shí)際意義了,這也是市場(chǎng)在這上面踟躕不前的一個(gè)原因,這玩意到底是啥都說不清,憑什么給你錢?
  那咱們就轉(zhuǎn)換下思路,追本溯源,從大數(shù)據(jù)的發(fā)展歷程來看下data lake的產(chǎn)生的必要性、以及有無壯大的原動(dòng)力。
  二、回首傳統(tǒng)數(shù)據(jù)倉庫(Data warehouse)
  從業(yè)務(wù)流程上,傳統(tǒng)data Warehouse是從數(shù)據(jù)需求(問題)角度出發(fā),甄選業(yè)務(wù)場(chǎng)景數(shù)據(jù)源、按照數(shù)倉庫范式清洗與建模、并按照主題還原為可信的業(yè)務(wù)過程后,給業(yè)務(wù)方重復(fù)使用,也就是所謂的數(shù)據(jù)集市(data Mart)。
  總結(jié)下來傳統(tǒng)數(shù)倉的理念還是管控:管控?cái)?shù)倉架構(gòu)、管控?cái)?shù)據(jù)流向、管控業(yè)務(wù)場(chǎng)景。
  從data Warehouse數(shù)據(jù)流動(dòng)角度看,整個(gè)流程如下:
  三、傳統(tǒng)數(shù)據(jù)倉庫面臨的挑戰(zhàn)
  隨著公司快速發(fā)展,面臨的幾個(gè)矛盾
  data mart模式導(dǎo)致的煙囪式建設(shè)與數(shù)據(jù)需跨業(yè)務(wù)線廣泛連接之間的矛盾
  數(shù)據(jù)ETL、數(shù)據(jù)建模工作的響應(yīng)速度與數(shù)據(jù)反哺業(yè)務(wù)迭代創(chuàng)新之間的矛盾
  數(shù)據(jù)賦能與業(yè)務(wù)場(chǎng)景探索的脫節(jié)
  通過上面的闡述,稍作抽象,即可發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象:
  工作職責(zé)上, 更多數(shù)據(jù)工作正在從IT向DS(數(shù)據(jù)科學(xué)家,下同)過渡,IT傾向于與DS解耦
  工作方式上,在 數(shù)據(jù)從輔助決策向驅(qū)動(dòng)決策升級(jí)的過程中,工作模式從"提出問題(DS)-解決問題(IT)"逐步向"場(chǎng)景化的泛?jiǎn)栴}-分析數(shù)據(jù)提出具體問題-分析數(shù)據(jù)-解決具體問題"的工作方式轉(zhuǎn)換
  在這個(gè)背景下,為了解決這些問題,業(yè)界發(fā)起了對(duì)data lake使命和架構(gòu)的的探討…
  四、什么是Data lake
  注:為了維持定義的精確性,下面幾段簡(jiǎn)單的英文就不做翻譯了,敬請(qǐng)諒解 :)
  從Amazon AWS得到的解釋
  A data lake is a centralized repository that allows you to store all your structured and unstructured data at any scale. You can store your data as-is, without having to first structure the data, and run different types of analytics—from dashboards and visualizations to big data processing, real-time analytics, and machine learning to guide better decisions.
  從維基百科得到的解釋
  A data lake  is a system or repository of data stored in its natural format,usually object blobs or files. A data lake is usually a single store of all enterprise data including raw copies of source system data and transformed data used for tasks such as reporting, visualization, analytics and machine learning.
  A data lake can include structured data from relational databases (rows and columns), semi-structured data (CSV, logs, XML, JSON), unstructured data (emails, documents, PDFs) and binary data (images, audio, video).
  受到的質(zhì)疑與挑戰(zhàn)
  One criticism about the data lake is that the  concept is fuzzy and arbitrary. It refers to any tool or data management practice that does not fit into the traditional data warehouse architecture.
  簡(jiǎn)單而言,data lake就是有一個(gè)中心化的存儲(chǔ),所有的數(shù)據(jù)以它本來的形式(來自RMDB的結(jié)構(gòu)化數(shù)據(jù)、CSV/JSON/XML等半結(jié)構(gòu)化數(shù)據(jù)、documents等非結(jié)構(gòu)化數(shù)據(jù)、甚至image/audio等二進(jìn)制數(shù)據(jù))都放到這個(gè)存儲(chǔ)里, 進(jìn)而為后續(xù)的報(bào)表、可視化分析、實(shí)時(shí)分析、以至于機(jī)器學(xué)習(xí)提供數(shù)據(jù)支撐。
  五、Data lake架構(gòu)
  為了應(yīng)對(duì)傳統(tǒng)數(shù)據(jù)倉庫面臨的問題,業(yè)界給出了不同的解決方案,下面的軸輻式(Hub and Spoke)架構(gòu)也是其中之一:
  HUB(軸)要解決的問題:
  • 統(tǒng)一存儲(chǔ):Centralized, singular, schema-less data store with raw (as-is) data as well as massaged data
  • 索引與檢索數(shù)據(jù):Ability to map data across sources and provide visibility and security to users, Catalog to find and retrieve data
  • 數(shù)據(jù)安全:Ability to manage security, permissions and data masking
  • 自助服務(wù):Supports self-provisioning of data management, and analytic tools without IT intervention
  SPOKE(輻條)需要解決的問題:
  • 支持業(yè)務(wù)團(tuán)隊(duì)以自助服務(wù)的形式處理數(shù)據(jù)的可視化、數(shù)據(jù)探索、數(shù)據(jù)協(xié)作等業(yè)務(wù)問題
  • IT團(tuán)隊(duì)提供相應(yīng)工具鏈、安全沙箱、標(biāo)準(zhǔn)化數(shù)據(jù)服務(wù)等基礎(chǔ)設(shè)施
  六、數(shù)據(jù)架構(gòu)的演進(jìn)趨勢(shì)
  大數(shù)據(jù)為了賦能業(yè)務(wù),從數(shù)據(jù)基礎(chǔ)建設(shè)、業(yè)務(wù)快速迭代兩個(gè)角度來看,數(shù)據(jù)和組織架構(gòu)正以下面的方式演進(jìn):
  特別說明:上圖并非說IT/ETL的需求變少了,而是為了說明DS的業(yè)務(wù)需求和能力需求變的更多和更強(qiáng)了。
  七、一道鴻溝
  這么一弄,問題就來了,即使一個(gè)良好定義的數(shù)據(jù)倉庫,在數(shù)據(jù)檢索、理解上都存在相當(dāng)?shù)碾y度,這種原汁原味存放原始(非結(jié)構(gòu)化)數(shù)據(jù)的地方,用戶如何檢索數(shù)據(jù)呢?怎么理解這些原始數(shù)據(jù)的業(yè)務(wù)含義呢?隨著數(shù)據(jù)量的膨脹,這個(gè)問題會(huì)愈演愈烈,直到變成數(shù)據(jù)沼澤。
  data lake絕不是一個(gè)簡(jiǎn)單的把原始數(shù)據(jù)以它原有的樣子放到一起,用戶就可以happy的進(jìn)行可視化、洞察和分析的,因?yàn)檫@和他們需要的這些服務(wù)之間,有一道不可逾越的鴻溝。這道鴻溝需要良好定義的data lake架構(gòu)來解決。
  這個(gè)良好定義的data lake架構(gòu),目前來看就是“數(shù)據(jù)治理”,我們需要把重心從系統(tǒng)建設(shè)提升到數(shù)據(jù)建設(shè),在“數(shù)據(jù)治理”的基礎(chǔ)上,為上層業(yè)務(wù)提供自助化的服務(wù)。因此我們還有如下的幾點(diǎn)收獲:
  • data lake與data warehouse的理念不同,相對(duì)于data Warehouse的注重?cái)?shù)據(jù)管控,data lake更傾向于數(shù)據(jù)服務(wù)
  • data lake對(duì)數(shù)據(jù)從業(yè)人員的素質(zhì)要求更高;對(duì)數(shù)據(jù)系統(tǒng)的要求更高,要防止數(shù)據(jù)湖變數(shù)據(jù)沼澤 ,此時(shí)就需要借助現(xiàn)代化的數(shù)據(jù)治理能力
  • data lake與data warehouse不是互斥的。當(dāng)前條件下,data lake并不能完全替代warehouse。尤其是對(duì)于已經(jīng)使用data warehouse的公司,這種情況下warehouse可以作為data lake的一個(gè)數(shù)據(jù)來源
  八、總結(jié)
  傳統(tǒng)的數(shù)據(jù)倉庫模式,確實(shí)在快速發(fā)展的企業(yè)面前顯的力不從心。
  data lake以數(shù)據(jù)治理為基礎(chǔ)、一套自助服務(wù)為抓手的工具鏈來賦能業(yè)務(wù)發(fā)展,這套理論是否是最適合現(xiàn)代企業(yè)(尤其是快速創(chuàng)新的企業(yè))的,在一定程度上可以,但還需要持續(xù)驗(yàn)證。但是有一點(diǎn)值得注意,業(yè)界在data lake的嘗試上一般都會(huì)忽視數(shù)據(jù)治理的重要性,這是很危險(xiǎn)的,由它導(dǎo)致的數(shù)據(jù)沼澤也是企業(yè)對(duì)data lake持續(xù)觀望的愿意之一。
  另外,現(xiàn)在崛起的數(shù)據(jù)中臺(tái),它完全以數(shù)據(jù)治理、數(shù)據(jù)服務(wù)為核心理念而建,并比data lake更貼近業(yè)務(wù)場(chǎng)景,這也是數(shù)據(jù)中臺(tái)方興未艾的一個(gè)原因。
  本文轉(zhuǎn)載自公眾號(hào):數(shù)據(jù)老鐵匠
 
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

相關(guān)閱讀:

專題

CTI論壇會(huì)員企業(yè)

聂荣县| 惠安县| 白城市| 大方县| 新泰市| 隆尧县| 建湖县| 林西县| 浮梁县| 竹山县| 亳州市| 象州县| 庆元县| 宿州市| 云霄县| 博野县| 裕民县| 绥化市| 西宁市| 蓝山县| 鸡东县| 庆元县| 东港市| 南阳市| 昔阳县| 门源| 岢岚县| 西安市| 平凉市| 建昌县| 芜湖市| 滕州市| 林芝县| 天峻县| 墨玉县| 阳原县| 嘉定区| 新乐市| 陆良县| 宜城市| 皮山县|