近日,賽迪顧問正式發(fā)布了國內(nèi)首份《湖倉一體技術研究報告》。對此,巨杉數(shù)據(jù)庫特邀賽迪顧問軟件與信息服務業(yè)研究專家,對《湖倉一體技術研究報告》進行了深入解讀。
伴隨數(shù)字化在各行各業(yè)的深化發(fā)展,企業(yè)不但需要面向業(yè)務的「交易核心」,同時更需要構建面向企業(yè)全量數(shù)據(jù)價值的「數(shù)據(jù)核心」。不同于傳統(tǒng)「交易核心」往往僅針對特定業(yè)務系統(tǒng)解決其交易需求不同的是,「數(shù)據(jù)核心」需要匯聚從多個「交易核心」產(chǎn)生的實時交易流水數(shù)據(jù),為全企業(yè)跨業(yè)務的多個系統(tǒng)提供高并發(fā)的實時對客全量數(shù)據(jù)查詢及數(shù)據(jù)探索分析能力。湖倉一體技術借助海量、實時、多模的數(shù)據(jù)處理能力,實現(xiàn)全量數(shù)據(jù)價值的持續(xù)釋放,正成為企業(yè)數(shù)字化轉型過程中的備受關注焦點。
本次解讀分享,結合湖倉一體技術的發(fā)展歷程,對現(xiàn)階段業(yè)界重點產(chǎn)品,典型案例,未來趨勢等多方面內(nèi)容進行了剖析,綜合評判了湖倉一體技術的發(fā)展階段及未來應用場景。
· 湖倉一體技術的發(fā)展現(xiàn)狀
現(xiàn)階段,數(shù)據(jù)湖與數(shù)據(jù)倉庫的融合發(fā)展主要有三個技術路徑,根據(jù)不同路徑的技術特性,可以滿足不同場景下的客戶需求。
第一個是基于Hadoop體系的數(shù)據(jù)湖向數(shù)據(jù)倉庫能力擴展,在數(shù)據(jù)湖中建數(shù)據(jù)倉庫,通過引入數(shù)據(jù)倉庫的分析功能,從數(shù)據(jù)湖直接進化到湖倉一體。
第二個是基于自身云平臺進行架構構建,主要是公有云廠商基于自身云平臺或相關產(chǎn)品,通過自研技術打通數(shù)據(jù)湖與數(shù)據(jù)倉庫,實現(xiàn)湖倉一體功能。
第三個是以獨立數(shù)據(jù)庫廠商為代表的梯隊,其以數(shù)據(jù)庫技術為基礎,自研分布式平臺,從調度、計算到存儲不依賴第三方平臺,形成可以靈活在公有云、私有云、裸金屬等場景獨立部署的湖倉一體平臺。這類的代表廠商如海外的Snowflake,Databricks及國內(nèi)的巨杉數(shù)據(jù)庫等。
報告選取了業(yè)界比較主流的6個湖倉一體產(chǎn)品進行對比分析,包括海外廠商Snowflake、Databricks及亞馬遜AWS智能湖倉,國內(nèi)廠商巨杉數(shù)據(jù)庫SequoiaDB、阿里云MaxCompute湖倉一體方案、華為云FusionInsight。
從設計初衷來看,各家產(chǎn)品雖然技術路線不同,或自研,或基于開源,或基于自身云平臺的產(chǎn)品組合,但最終目的均一致是為了降低數(shù)據(jù)在不同平臺間的流動,這樣做的好處一方面是技術上可以降低客戶的管理成本,另一方面在商業(yè)上也提升了客戶粘性和操作體驗。比如像亞馬遜AWS、阿里云、華為云,會通過各類云上的工具打通不同產(chǎn)品或組件間的數(shù)據(jù)流通,而Snowflake、Databricks、巨杉數(shù)據(jù)庫則會盡可能讓同一平臺上的數(shù)據(jù)具備更豐富的應用場景。
從特性上來看,各個廠商均強調了ACID事物一致性,因為在湖倉一體中,數(shù)據(jù)不再如同傳統(tǒng)數(shù)據(jù)倉庫中的離線分析數(shù)據(jù),客戶的業(yè)務數(shù)據(jù)將更實時的以數(shù)據(jù)流的方式寫入。雖然湖倉一體不需要如同事務型數(shù)據(jù)庫一樣,擁有低延遲的在線交易能力,但是在數(shù)字化轉型需求下,系統(tǒng)同樣需要提供實時的數(shù)據(jù)查詢分析能力,及保證在某一時間點上數(shù)據(jù)的準確性。
整體分析后不難看出,Snowflake從數(shù)據(jù)倉庫逐步提供多元化的數(shù)據(jù)處理,其最新版本也進一步強化了數(shù)據(jù)實時服務能力。Databricks的優(yōu)勢在于對非結構化數(shù)據(jù)處理的AI機器學習及科學計算上,并持續(xù)擴展其數(shù)據(jù)倉庫的分析能力。巨杉數(shù)據(jù)庫以統(tǒng)一平臺下跨結構化、半結構化、非結構化的多模數(shù)據(jù)處理能力為基礎,重點提供高并發(fā)的實時對客查詢,并持續(xù)擴展實時湖倉的分析能力。亞馬遜AWS、阿里云、華為云則更注重于其基于自身云生態(tài)的技術能力整合,簡化了云平臺客戶在數(shù)據(jù)處理上的復雜度。
在報告中,也對湖倉一體的典型應用案例進行了分析,具體內(nèi)容可下載報告后進行閱讀。
· 湖倉一體技術的未來趨勢
分析來看,“湖倉一體”架構在數(shù)據(jù)管理中呈現(xiàn)出六大技術特性。
一是支持分析多種數(shù)據(jù)類型,包括結構化、半結構化和非結構化數(shù)據(jù)。
二是數(shù)據(jù)可治理,在保證數(shù)據(jù)完整性的同時,具有健全的治理和審計機制,能夠避免數(shù)據(jù)沼澤現(xiàn)象。
三是事務支持,企業(yè)數(shù)據(jù)往往要為業(yè)務系統(tǒng)提供并發(fā)的讀取和寫入,對事物ACID的支持,可確保數(shù)據(jù)并發(fā)訪問的一致性、正確性。
四是BI支持,能夠支持直接在源數(shù)據(jù)上使用BI工具,加快分析效率,降低數(shù)據(jù)延遲。
五是存算分離,使系統(tǒng)能夠擴展到更大規(guī)模的并發(fā)能力和數(shù)據(jù)容量。
六是開放型,采用開放、標準化的存儲格式,并提供豐富的API支持。
與此同時,隨著湖倉一體技術的不斷成熟,未來將在四大應用場景中發(fā)揮作用。
場景一:服務于數(shù)據(jù)中臺的實時數(shù)倉。由于數(shù)據(jù)中臺要求其數(shù)據(jù)庫在分析處理過程中,需強調事物一致性,并保持低延遲與提升實時處理能力,這些都是湖倉一體的典型技術特性。
場景二:支撐微服務的數(shù)據(jù)融合底座。可有效解決擴展困難以及維護困難的問題。
場景三:全量數(shù)據(jù)實時訪問平臺。在數(shù)字化轉型過程中,對客實時查詢,歷史數(shù)據(jù)服務平臺,或IoT物聯(lián)網(wǎng)系統(tǒng)中,會產(chǎn)生實時處理海量數(shù)據(jù)的需求,湖倉一體的彈性擴展能力能夠很好滿足這一需求。
場景四:進行非結構化數(shù)據(jù)處理,數(shù)字化轉型中通過AI機器學習及比對分析,非結構化數(shù)據(jù)將包含更多元化的業(yè)務屬性,為各類業(yè)務系統(tǒng)提供信息輸入。湖倉一體能夠有效提升非結構化數(shù)據(jù)的處理能力。
更多內(nèi)容,歡迎搜索《湖倉一體技術研究報告》,下載完整版報告。
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據(jù)。
關鍵詞: