AI 前線導讀:數(shù)據(jù)中臺被譽為大數(shù)據(jù)的下一站,由阿里興起,核心思想是數(shù)據(jù)共享,并在 2018 年因為“騰訊數(shù)據(jù)中臺論”再度成為了人們談論的焦點。在 3 月 15 日 ThoughtWorks 技術雷達峰會上,關于數(shù)據(jù)中臺的話題也獲得了眾多參會者的熱烈關注。如今似乎人人都在提數(shù)據(jù)中臺,但卻不是所有人都清楚數(shù)據(jù)中臺到底意味著什么。數(shù)據(jù)中臺是只有大廠才需要考慮的高大上的概念嗎?普通企業(yè)該不該做數(shù)據(jù)中臺?數(shù)據(jù)中臺的出現(xiàn)會給現(xiàn)有數(shù)據(jù)從業(yè)者們帶來顛覆式的挑戰(zhàn)嗎?帶著上述問題,InfoQ 在技術雷達峰會上采訪了 ThoughtWorks 數(shù)據(jù)和智能總監(jiān)史凱,談談他對于數(shù)據(jù)中臺的看法。
更多干貨內(nèi)容請關注微信公眾號“AI 前線”(ID:ai-front)
數(shù)據(jù)中臺不是大數(shù)據(jù)平臺!首先它不是一個平臺,也不是一個系統(tǒng),如果有廠商說他們有個數(shù)據(jù)中臺賣給你,對不起,它是個騙子。
要回答數(shù)據(jù)中臺是什么,首先要探討一下中臺到底是什么。雖然沒有明確的定義,但是作為理工直男,我們可以先把中臺看作是一種中間層。既然是一種中間層,那么中臺確實是一種十足技術用語,我們可以完全從技術角度來探討了。
我們可以應用 Gartner 的 Pace Layer 來理解為什么要有中間層,這樣可以更好地理解中臺的定位和價值。Pace Layer 里提到,可以按照事物變化的速度來分層,這樣可以逐層分析并設計合理的邊界與服務。

在數(shù)據(jù)開發(fā)中,核心數(shù)據(jù)模型的變化是相對緩慢的,同時,對數(shù)據(jù)進行維護的工作量也非常大;但業(yè)務創(chuàng)新的速度、對數(shù)據(jù)提出的需求的變化,是非常快速的。
數(shù)據(jù)中臺的出現(xiàn),就是為了彌補數(shù)據(jù)開發(fā)和應用開發(fā)之間,由于開發(fā)速度不匹配,出現(xiàn)的響應力跟不上的問題。
數(shù)據(jù)中臺解決的問題可以總結為如下三點:
效率問題:為什么應用開發(fā)增加一個報表,就要十幾天時間?為什么不能實時獲得用戶推薦清單?當業(yè)務人員對數(shù)據(jù)產(chǎn)生一點疑問的時候,需要花費很長的時間,結果發(fā)現(xiàn)是數(shù)據(jù)源的數(shù)據(jù)變了,最終影響上線時間。
協(xié)作問題:當業(yè)務應用開發(fā)的時候,雖然和別的項目需求大致差不多,但因為是別的項目組維護的,所以數(shù)據(jù)還是要自己再開發(fā)一遍。
能力問題:數(shù)據(jù)的處理和維護是一個相對獨立的技術,需要相當專業(yè)的人來完成,但是很多時候,我們有一大把的應用開發(fā)人員,而數(shù)據(jù)開發(fā)人員很少。
這三類問題都會導致應用開發(fā)團隊變慢。這就是中臺的關鍵——讓前臺開發(fā)團隊的開發(fā)速度不受后臺數(shù)據(jù)開發(fā)的影響。
史凱總結說,“數(shù)據(jù)中臺是聚合和治理跨域數(shù)據(jù),將數(shù)據(jù)抽象封裝成服務,提供給前臺以業(yè)務價值的邏輯概念”。
如下圖所示:

DData API 是數(shù)據(jù)中臺的核心,它是連接前臺和后臺的橋梁,通過 API 的方式提供數(shù)據(jù)服務,而不是直接把數(shù)據(jù)庫給前臺、讓前臺開發(fā)自行使用數(shù)據(jù)。至于產(chǎn)生 DataAPI 的過程,怎么樣讓 DataAPI 產(chǎn)生得更快,怎么樣讓 DATA API 更加清晰,怎么樣讓 DATA API 的數(shù)據(jù)質(zhì)量更好,這些是要圍繞數(shù)據(jù)中臺去構建的能力。
數(shù)據(jù)中臺和數(shù)據(jù)倉庫、數(shù)據(jù)平臺的關鍵區(qū)別
這是現(xiàn)在數(shù)據(jù)行業(yè)大家經(jīng)常討論的問題,到底數(shù)據(jù)倉庫、數(shù)據(jù)平臺和數(shù)據(jù)中臺的區(qū)別是什么。

概括地說,三者的關鍵區(qū)別有以下幾方面:
數(shù)據(jù)中臺是企業(yè)級的邏輯概念,體現(xiàn)企業(yè) D2V(Data to Value)的能力,為業(yè)務提供服務的主要方式是數(shù)據(jù) API;
數(shù)據(jù)倉庫是一個相對具體的功能概念,是存儲和管理一個或多個主題數(shù)據(jù)的集合,為業(yè)務提供服務的方式主要是分析報表;
數(shù)據(jù)平臺是在大數(shù)據(jù)基礎上出現(xiàn)的融合了結構化和非結構化數(shù)據(jù)的數(shù)據(jù)基礎平臺,為業(yè)務提供服務的方式主要是直接提供數(shù)據(jù)集;
數(shù)據(jù)中臺距離業(yè)務更近,為業(yè)務提供速度更快的服務;
數(shù)據(jù)倉庫是為了支持管理決策分析,而數(shù)據(jù)中臺則是將數(shù)據(jù)服務化之后提供給業(yè)務系統(tǒng),不僅限于分析型場景,也適用于交易型場景;
數(shù)據(jù)中臺可以建立在數(shù)據(jù)倉庫和數(shù)據(jù)平臺之上,是加速企業(yè)從數(shù)據(jù)到業(yè)務價值的過程的中間層。
數(shù)據(jù)倉庫具有歷史性,其中存儲的數(shù)據(jù)大多是結構化數(shù)據(jù),這些數(shù)據(jù)并非企業(yè)全量數(shù)據(jù),而是根據(jù)需求針對性抽取的,因此數(shù)據(jù)倉庫對于業(yè)務的價值是各種各樣的報表,但這些報表又無法實時產(chǎn)生。數(shù)據(jù)倉庫報表雖然能夠提供部分業(yè)務價值,但不能直接影響業(yè)務。
數(shù)據(jù)平臺的出現(xiàn)是為了解決數(shù)據(jù)倉庫不能處理非結構化數(shù)據(jù)和報表開發(fā)周期長的問題,所以先撇開業(yè)務需求、把企業(yè)所有的數(shù)據(jù)都抽取出來放到一起,成為一個大的數(shù)據(jù)集,其中有結構化數(shù)據(jù)、非結構化數(shù)據(jù)等。當業(yè)務方有需求的時候,再把他們需要的若干個小數(shù)據(jù)集單獨提取出來,以數(shù)據(jù)集的形式提供給數(shù)據(jù)應用。
而數(shù)據(jù)中臺是在數(shù)據(jù)倉庫和數(shù)據(jù)平臺的基礎上,將數(shù)據(jù)生產(chǎn)為為一個個數(shù)據(jù) API 服務,以更高效的方式提供給業(yè)務。
大數(shù)據(jù)和人工智能大火之后這幾年,很多人一直在提一個說法,那就是“數(shù)據(jù)是新的石油”。但史凱的觀點卻有些不同,在他看來,數(shù)據(jù)不等于數(shù)據(jù)資產(chǎn),如果沒有從業(yè)務的角度對數(shù)據(jù)進行規(guī)劃,再多的數(shù)據(jù)也無法產(chǎn)生價值。
史凱認為數(shù)據(jù)中臺最核心的一個關鍵組件是數(shù)據(jù)資產(chǎn)目錄。“我們認為,一個企業(yè)的數(shù)據(jù)要能夠充分發(fā)揮價值,很重要的一個前提條件就是這個企業(yè)的數(shù)據(jù)結構和數(shù)據(jù)資產(chǎn)目錄是對整個企業(yè)開放的。所有人都能夠通過這個資產(chǎn)目錄了解公司有哪些類別的數(shù)據(jù)、包含什么屬性、源數(shù)據(jù)由誰管理,這樣就可以快速搞清楚這些數(shù)據(jù)是不是自己需要的。但數(shù)據(jù)本身可以不開放,因為數(shù)據(jù)是有隱私信息和安全級別的。”
大企業(yè)內(nèi)部業(yè)務眾多,不同業(yè)務可能存在很多重復數(shù)據(jù)。所謂的數(shù)據(jù)資產(chǎn)目錄就是把數(shù)據(jù)的模型去重、歸一、梳理,變成一個樹狀結構,這個樹狀結構不直接對應數(shù)據(jù)庫中的字段。以航空貨運為例,其數(shù)據(jù)資產(chǎn)可能包括貨機、客運機的輔艙,一架貨機就是一個數(shù)據(jù)資產(chǎn)目錄的節(jié)點,而貨機的各種屬性(如貨機型號、空間大小、年份等)就是這個節(jié)點下面的數(shù)據(jù)模型。數(shù)據(jù)資產(chǎn)目錄做的事情就是從業(yè)務層面出發(fā)制定數(shù)據(jù)標準,將企業(yè)業(yè)務相關的數(shù)據(jù)資產(chǎn)模型抽取出來,這跟后面用什么數(shù)據(jù)庫去存儲、用什么結構去存儲、存成結構化還是非結構化都沒有關系。它相當于把企業(yè)的業(yè)務從數(shù)據(jù)層面做了一個梳理,用數(shù)據(jù)的語言把企業(yè)的業(yè)務模型還原出來。數(shù)據(jù)資產(chǎn)目錄做好之后,后面才是用什么技術手段、從哪里提取數(shù)據(jù)來映射到這個數(shù)據(jù)資產(chǎn)目錄。
除了開放,數(shù)據(jù)資產(chǎn)目錄還應該具有標簽描述、可檢索,這樣才能最大程度地方便真正使用數(shù)據(jù)的人,以最快的速度找到他們需要的東西。
在 ThoughtWorks 提出的精益數(shù)據(jù)創(chuàng)新體系中將企業(yè)所需要具備的數(shù)據(jù)能力概括為以下六種,具備了這六種能力,企業(yè)才具備成為數(shù)據(jù)驅動的智能企業(yè)的基礎,而這些能力的承載平臺,就是數(shù)據(jù)中臺:

數(shù)據(jù)資產(chǎn)的規(guī)劃和治理
做中臺之前,首先需要知道業(yè)務價值是什么,從業(yè)務角度去思考企業(yè)的數(shù)據(jù)資產(chǎn)是什么。數(shù)據(jù)資產(chǎn)不等同于數(shù)據(jù),數(shù)據(jù)資產(chǎn)是唯一的,能為業(yè)務產(chǎn)生價值的數(shù)據(jù)。 對于同一堆數(shù)據(jù),不同業(yè)務部門所關注的數(shù)據(jù)指標可能完全不同,怎么讓各個跨域的業(yè)務變成統(tǒng)一的標準,就需要規(guī)劃企業(yè)的數(shù)據(jù)全景圖,將所有有可能用上的、所有對企業(yè)有可能有價值的數(shù)據(jù)都規(guī)劃出來,最終梳理出企業(yè)的數(shù)據(jù)資產(chǎn)目錄。在這個時候不需要考慮有沒有系統(tǒng)、有沒有數(shù)據(jù),只需要關注哪些數(shù)據(jù)是對企業(yè)業(yè)務有價值的。這一層不建議做得太細,太細就難以形成標準,不能適用于多個場景了。數(shù)據(jù)治理是數(shù)據(jù)中臺很重要的一個領域,ThoughtWorks 認為在現(xiàn)在業(yè)務邊界消失、需求快速變化的情況下,企業(yè)需要具備精益數(shù)據(jù)治理的能力——Lean Data Governance。傳統(tǒng)的中心化、事前控制式的數(shù)據(jù)治理方式,要改變?yōu)槿ブ行幕⑹潞蠓帐降闹卫矸绞健?/span>

數(shù)據(jù)資產(chǎn)的獲取和存儲
數(shù)據(jù)中臺要為企業(yè)提供強大的數(shù)據(jù)資產(chǎn)的獲取和存儲的能力。
3. 數(shù)據(jù)的共享和協(xié)作
企業(yè)的數(shù)據(jù)中臺一定是跨域的,需要讓所有的人都知道數(shù)據(jù)資產(chǎn)目錄在哪里。不能因為數(shù)據(jù)安全,就不讓大家知道企業(yè)有什么數(shù)據(jù)。沒有共享和開放,數(shù)據(jù)沒有辦法流動起來,沒有流動的話數(shù)據(jù)的價值產(chǎn)生的速度就會非常慢。所以在數(shù)據(jù)安全的基礎上,企業(yè)的數(shù)據(jù)資產(chǎn)目錄要對利益相關者、價值創(chuàng)造者開放,要讓業(yè)務人員能夠做到“Self-Service”。
4. 業(yè)務價值的探索和分析
數(shù)據(jù)中臺不僅要建立到源數(shù)據(jù)的通路,還需要提供分析數(shù)據(jù)的工具和能力,幫助業(yè)務人員去探索和發(fā)現(xiàn)數(shù)據(jù)的業(yè)務價值。一個好的數(shù)據(jù)中臺解決方案中需要針對不同業(yè)務崗位的用戶提供個性化的數(shù)據(jù)探索和分析的工具,并且在此基礎上一鍵生成數(shù)據(jù) API,以多樣化的方式提供給前臺系統(tǒng)。
數(shù)據(jù)服務的構建和治理
數(shù)據(jù)中臺需要保證數(shù)據(jù)服務的性能和穩(wěn)定性,以及數(shù)據(jù)質(zhì)量和準確性,還需要具備強大的服務治理能力。數(shù)據(jù)中臺是一個生態(tài)平臺,在數(shù)據(jù)中臺上面會不斷生長各種數(shù)據(jù)服務,所以從一開始就構建好數(shù)據(jù)服務的治理結構是非常重要的,數(shù)據(jù)服務需要可以被記錄、可被跟蹤、可被審計、可被監(jiān)控。
6. 數(shù)據(jù)服務的度量和運營
如果數(shù)據(jù)中臺最終只是做到把數(shù)據(jù)給到業(yè)務人員,那它就只是一個搬運工的角色。數(shù)據(jù)中臺還需要具備度量和運營數(shù)據(jù)服務的能力,能夠對中臺上提供的數(shù)據(jù)服務及相關行為持續(xù)跟蹤和記錄,包括哪些數(shù)據(jù)服務被哪個部門用了多少次等,通過這些去度量每一個數(shù)據(jù)服務的業(yè)務價值。
史凱認為,數(shù)據(jù)中臺是一個需要用互聯(lián)網(wǎng)思維去經(jīng)營的利潤中心平臺,數(shù)據(jù)中臺的經(jīng)營分析人員需要分析業(yè)務,了解為什么今天上午這個財務部門的人用了數(shù)據(jù)中臺、調(diào)用了十次,下午他不用了,原因是什么,調(diào)用了這些數(shù)據(jù)服務的人通常還會調(diào)用哪些其他的數(shù)據(jù)服務。這些都需要相應地做記錄、做日志、做分析,要把數(shù)據(jù)當做像電商平臺一樣去經(jīng)營,然后實時地根據(jù)這些業(yè)務行為數(shù)據(jù)去提醒數(shù)據(jù)服務提供方,調(diào)整、改變、優(yōu)化數(shù)據(jù)服務,這才是可經(jīng)營的數(shù)據(jù)中臺,也只有這樣業(yè)務部門才能得到最快的支持和響應。
數(shù)據(jù)中臺并非只有大公司才需要的高大上的玩意。
ThoughtWorks 從 2017 年到現(xiàn)在,已經(jīng)幫助多家大型國內(nèi)外企業(yè)建設數(shù)據(jù)中臺,其中有體量巨大的企業(yè)級數(shù)據(jù)中臺,也有部門級的小數(shù)據(jù)中臺。
“未來所有的企業(yè)核心都會變成加工數(shù)據(jù)的企業(yè),而數(shù)據(jù)中臺是數(shù)據(jù)價值化的加工廠,所以所有的企業(yè)都需要數(shù)據(jù)中臺的能力,數(shù)據(jù)中臺一定是未來每個企業(yè)的標準配置。”
在史凱看來,數(shù)據(jù)中臺并不意味著“大而全”的數(shù)據(jù)平臺。根據(jù)企業(yè)的規(guī)模和業(yè)務的不同,數(shù)據(jù)中臺可大可小,規(guī)模、復雜度可能都不相同,但它對業(yè)務產(chǎn)生的價值是一樣的。
當企業(yè)評估自己是否應該建設數(shù)據(jù)中臺時,應該從哪些方面來考慮?史凱認為,從戰(zhàn)略角度來說,每個企業(yè)都需要建立自己的數(shù)據(jù)中臺;從戰(zhàn)術角度來說,當企業(yè)發(fā)現(xiàn)自己的數(shù)據(jù)開發(fā)利用的速度和應用開發(fā)的速度不匹配的時候,就需要考慮構建數(shù)據(jù)中臺。
原來很多企業(yè)在做應用系統(tǒng)的時候,什么都不考慮直接上單體架構,一上來就先做數(shù)據(jù)庫,然后在上面建應用。ThoughtWorks 建議現(xiàn)在的企業(yè),即使不做數(shù)據(jù)中臺、不去立一個叫做“數(shù)據(jù)中臺”的項目,但是在做應用的時候,最好把這個應用分成三層,業(yè)務層、數(shù)據(jù)中臺層、源數(shù)據(jù)層,在一開始做應用的時候就把三個層次抽象出來。
數(shù)據(jù)質(zhì)量差所以做不了數(shù)據(jù)中臺?No!
歷史遺留的數(shù)據(jù)質(zhì)量問題經(jīng)常讓大家對數(shù)據(jù)的利用和價值產(chǎn)生質(zhì)疑。2018 年,史凱在與不同企業(yè)溝通過程中經(jīng)常聽到的一句話就是,“我們現(xiàn)在還沒有到利用數(shù)據(jù)這一步,因為(應用系統(tǒng)中的)數(shù)據(jù)質(zhì)量太差”。
每次聽到這句話,史凱腦子里就好像聽到了另外一句話,“還沒到培養(yǎng)孩子的時候啊,孩子太小了”。
不能因為數(shù)據(jù)質(zhì)量差,就不去利用數(shù)據(jù)。恰恰是因為沒有去做后面的事情,所以數(shù)據(jù)質(zhì)量才差。而且也不能因為數(shù)據(jù)質(zhì)量差就拋開業(yè)務場景、試圖全面解決數(shù)據(jù)質(zhì)量的問題,這樣得不到業(yè)務部門的支持,也無法從數(shù)據(jù)工作中產(chǎn)生業(yè)務價值。所以 ThoughtWorks 建議的恰恰是利用做應用、做業(yè)務的需求,同步解決數(shù)據(jù)質(zhì)量問題。
史凱認為,數(shù)據(jù)質(zhì)量問題,根本上是在構建應用之初缺乏整體數(shù)據(jù)規(guī)劃和數(shù)據(jù)思維導致的問題。原來的流程類應用構建之初,只考慮了如何讓流程跑起來,缺乏對這個應用在整個企業(yè)的數(shù)據(jù)全景圖(Data Landscape)中的定位的分析,沒有從源頭上優(yōu)化數(shù)據(jù)的存儲、流轉,從而更好地與其他的系統(tǒng)中的數(shù)據(jù)去對齊口徑、統(tǒng)一語言,將流程問題抽象成領域模型問題,再將領域模型抽象成數(shù)據(jù)模型。
建設數(shù)據(jù)中臺的挑戰(zhàn)及應對策略
建設數(shù)據(jù)中臺最大的挑戰(zhàn)在于前期能否從業(yè)務層面梳理清楚有業(yè)務價值的場景,以及數(shù)據(jù)全景圖,而不僅在于后期的技術建設。
數(shù)據(jù)中臺建設面臨的挑戰(zhàn)包括:
梳理業(yè)務場景:搞清楚數(shù)據(jù)中臺如何對業(yè)務產(chǎn)生價值。
建設數(shù)據(jù)中臺的優(yōu)先級策略:需求可能大而全,但我們不能直接建大而全的數(shù)據(jù)中臺,應該根據(jù)業(yè)務重要性來排需求的優(yōu)先級。
數(shù)據(jù)治理問題:和業(yè)務獨立開的數(shù)據(jù)治理少有成功的,大的數(shù)據(jù)標準要有(數(shù)據(jù)資產(chǎn)目錄),通過數(shù)據(jù)資產(chǎn)目錄將共有的緯度、共性的業(yè)務模型提煉出來,在此基礎之上數(shù)據(jù)治理需要跟業(yè)務場景緊密結合。
數(shù)據(jù)中臺的建設需要兩個戰(zhàn)略耐心
數(shù)據(jù)中臺是為了加快從數(shù)據(jù)到業(yè)務價值的產(chǎn)生速度,但是它的生產(chǎn)過程依然是需要時間、有很多復雜的工作要做的,所以對于數(shù)據(jù)中臺的投資方和數(shù)據(jù)中臺的建設方來講,都需要對應的戰(zhàn)略耐心。

對于投資方來講,要充分認識到數(shù)據(jù)中臺類項目的價值和局限性。在現(xiàn)在的組織結構和技術成熟度下,數(shù)據(jù)中臺依舊是一個技術平臺,對于業(yè)務價值的產(chǎn)生是一個加速的過程。但是業(yè)務對于數(shù)據(jù)的需求不會因為有了數(shù)據(jù)中臺就減少,數(shù)據(jù)中臺也不是哆啦 A 夢,不能隨心所欲地變出各種業(yè)務想要的服務。這依然是一個需要統(tǒng)籌規(guī)劃、敏捷迭代、演進建設的系統(tǒng)性工程,所以需要要管理好期望,有一定的戰(zhàn)略耐心。
對于建設方來講,要充分認識到數(shù)據(jù)中臺建設的復雜度,不要操之過急,不要期待畢其功于一役。史凱的建議是要從小中臺做起,圍繞具體有價值的業(yè)務場景去建設,盡量不脫離場景去搞周期長、大而全的純工具平臺建設。
建設數(shù)據(jù)中臺的關鍵考量包括兩方面。
首先數(shù)據(jù)中臺一定要與業(yè)務價值對齊。構建數(shù)據(jù)中臺,最重要的不是技術,也不是數(shù)據(jù)質(zhì)量好不好,而是數(shù)據(jù)思維和數(shù)據(jù)文化。數(shù)據(jù)思維就是要建立起從數(shù)據(jù)的視角去思考問題的方式;數(shù)據(jù)文化就是要把數(shù)據(jù)和業(yè)務當成一體去看,而不是只將數(shù)據(jù)當作一個支持工具。想清楚業(yè)務對于數(shù)據(jù)的訴求是構建數(shù)據(jù)中臺的第一步,哪怕暫時不能想的太細,也要去想,想不清楚就先不要做。
不要在業(yè)務場景還沒有明確、優(yōu)先級還不清晰、價值度量體系尚未建立起來的時候,就建立大而全的數(shù)據(jù)平臺,并且把所有的數(shù)據(jù)都存起來。企業(yè)都是追求投入產(chǎn)出比的,大而全的數(shù)據(jù)平臺往往會面臨尷尬的局面,一堆功能看上去很有用,應該都能用上,但是缺乏應用場景,真的有了場景,發(fā)現(xiàn)也不能開箱即用,還需要眾多的定制化。
其次,數(shù)據(jù)中臺應該從小數(shù)據(jù)、小場景做起。
數(shù)據(jù)中臺是面向場景而非面向技術的,這種與客戶的業(yè)務、企業(yè)的結構和信息化發(fā)展階段有著緊密的相關性的業(yè)務基礎架構,是很難買一個大而全的產(chǎn)品來一勞永逸解決的。
可以通過下面這個圖來解釋構建中臺的原則:

一開始的時候需要頂層設計,面向業(yè)務愿景制定中臺的整體規(guī)劃,全面的梳理數(shù)據(jù)創(chuàng)新全景藍圖,這就是上圖左邊的黑色框架部分,通過業(yè)務愿景驅動出所有的業(yè)務場景探索,從而推導出數(shù)據(jù)中臺的全景架構、技術支撐。
但是在實施的時候,要從具體的業(yè)務場景出發(fā)。從高價值數(shù)據(jù)集場景做起,然后順著這個場景豎切,找到數(shù)據(jù)全景圖中的一個或多個數(shù)據(jù)集合,從小數(shù)據(jù)場景落地,這樣才能快速驗證價值。大處思考,全局拉通,避免后續(xù)的數(shù)據(jù)孤島,但是從小數(shù)據(jù)集切入,從可實現(xiàn)性高的場景啟動。然后一個個的場景做起來,業(yè)務價值和中臺能力也就同步建立起來了。
總的來講就是,“設計階段橫著走,落地階段豎著切。”
數(shù)據(jù)中臺團隊通常需要包含以下角色:
業(yè)務專家團隊:了解業(yè)務、梳理業(yè)務場景,確定數(shù)據(jù)資產(chǎn)與業(yè)務場景的一一對應關系,確定業(yè)務場景的優(yōu)先級,為數(shù)據(jù)中臺的建設提供依據(jù)。
數(shù)據(jù)工程團隊:建設和維護數(shù)據(jù)中臺,包括 ETL、數(shù)據(jù)采集,以及數(shù)據(jù)中臺性能和穩(wěn)定性保證,利用中臺的工具采集、存儲、加工、處理數(shù)據(jù)。
數(shù)據(jù)分析團隊:分析數(shù)據(jù)價值、探索場景,生產(chǎn)更多的數(shù)據(jù)服務。
數(shù)據(jù)治理團隊:梳理數(shù)據(jù)標準、構件數(shù)據(jù)安全和隱私規(guī)范,利用開源去中心化的數(shù)據(jù)治理工具(比如 atlas、wherehows)來圍繞業(yè)務場景解決數(shù)據(jù)質(zhì)量和安全問題。
智能算法團隊:為數(shù)據(jù)分析、業(yè)務探索提供智能和算法工具。
而這樣的一個團隊的工作就構成了一個數(shù)據(jù)生產(chǎn)線,一個從數(shù)據(jù)到業(yè)務服務的數(shù)據(jù)服務工廠,這個工廠有生產(chǎn)車間(Data Pipeline)、研發(fā)中心(數(shù)據(jù)實驗室)、管理辦公室(數(shù)據(jù)治理),還有產(chǎn)品展示中心(數(shù)據(jù)服務商店)。

數(shù)據(jù)工廠是一個邏輯概念,不是一個大而全的產(chǎn)品,ThoughtWorks 結合過去幾年的實踐給出了一個數(shù)據(jù)工廠組件選型的參考架構,這些推薦的架構和組件,很多都體現(xiàn)在過去 ThoughtWorks 推出的技術雷達中并進行了詳細解釋,如下:

數(shù)據(jù)中臺的出現(xiàn)對于現(xiàn)有數(shù)據(jù)團隊的挑戰(zhàn)前面已經(jīng)提到,數(shù)據(jù)中臺是企業(yè)的 Data API 工廠,用更高效、更協(xié)同的方式加快從數(shù)據(jù)到業(yè)務的價值,能夠給業(yè)務提供更高的響應力。所以數(shù)據(jù)中臺距離業(yè)務更近,這對于傳統(tǒng)企業(yè)的數(shù)據(jù)業(yè)務來講,是一個重大的變化,同時給原來的數(shù)據(jù)團隊也會帶來巨大的挑戰(zhàn)。
1. 對數(shù)據(jù)分析人員的業(yè)務要求提高了企業(yè)傳統(tǒng)的數(shù)據(jù)工作和業(yè)務工作分工明確、界限清晰,業(yè)務人員負責業(yè)務需求,提出業(yè)務問題,并將業(yè)務問題拆解成一個個清晰的數(shù)據(jù)問題,然后數(shù)據(jù)工程師和數(shù)據(jù)分析師在這個清晰的問題下解題。
但是,在數(shù)據(jù)中臺出現(xiàn)后,數(shù)據(jù)中臺是一個賦能平臺,它會沉淀、提供很多數(shù)據(jù)分析工具和數(shù)據(jù)服務,能夠讓不具備專業(yè)數(shù)據(jù)能力的業(yè)務人員也可以進行一些簡單的數(shù)據(jù)分析,產(chǎn)生業(yè)務的洞察。這就意味著在數(shù)據(jù)中臺的支持下,相對簡單清晰的業(yè)務問題會更多的由業(yè)務人員自己解決掉,那么傳遞到專業(yè)數(shù)據(jù)人員的問題,都會是更加復雜的問題。這對于數(shù)據(jù)人員的業(yè)務理解能力就加強了,他 / 她們必須具備快速理解業(yè)務的能力,才能夠體現(xiàn)出專業(yè)性和優(yōu)勢。
2. 對于數(shù)據(jù)人員的工程能力要求提高了原來的數(shù)據(jù)分析工作屬于個體工作方式,每一個數(shù)據(jù)科學家、數(shù)據(jù)分析師就是一個獨立的工作單元,業(yè)務部門給出業(yè)務問題,他們通過自己擅長熟悉的工具和方法給出結果。但是在數(shù)據(jù)中臺出現(xiàn)后,他們一方面獲得了更多數(shù)據(jù)分析的武器和工具,能夠站在前人的基礎上工作,提高了效率和準確度,另外一方面,他們也需要掌握更多的平臺化的數(shù)據(jù)分析工具,比如 Jupyter Notebook,同時也被要求能夠把自己分析的結果轉化成數(shù)據(jù)服務,沉淀到中臺。
3. 數(shù)據(jù)團隊需要具備更多的業(yè)務視角原來的數(shù)據(jù)分析團隊是一個功能型團隊,更多以數(shù)據(jù)智囊團的身份存在。大部分情況下,距離業(yè)務比較遠,更不要提對業(yè)務的結果負責。而在數(shù)據(jù)中臺出現(xiàn)后,數(shù)據(jù)中臺距離業(yè)務會越來越近,甚至直接影響和參與業(yè)務的運行,數(shù)據(jù)團隊將慢慢脫離數(shù)據(jù)智囊團的身份,逐漸從后臺走向前臺,直接負責一個個數(shù)據(jù)服務,而這些數(shù)據(jù)服務是會直接參與到業(yè)務當中、產(chǎn)生業(yè)務價值的。這樣的定位變化,要求數(shù)據(jù)團隊具備更多的業(yè)務視角,要更關注業(yè)務價值,直接對齊企業(yè)的業(yè)務目標去工作。
所以,數(shù)據(jù)中臺的出現(xiàn),不僅是一個技術平臺,它對于企業(yè)而言是一個系統(tǒng)化的工作,企業(yè)數(shù)據(jù)相關的流程、職責、分工都要有對應的調(diào)整,才能達成整體的目標。
數(shù)據(jù)中臺 VS 數(shù)據(jù)隱私
對于數(shù)據(jù)中臺來說,數(shù)據(jù)隱私和安全性也是非常重要的問題。可能很多人還記得前些日子馬化騰針對“騰訊數(shù)據(jù)中臺論”的回應。去年騰訊組織架構調(diào)整進程中實現(xiàn)了技術打通,而對數(shù)據(jù)打通保持謹慎態(tài)度。馬化騰在 18 年 11 月的世界互聯(lián)網(wǎng)大會上回應“數(shù)據(jù)中臺論”:“騰訊不能套用很多其他公司的做法,把數(shù)據(jù)直接去任意打通。因為在我們的平臺里面,大量全部都是人和人之間的通信、社交行為數(shù)據(jù),如果說數(shù)據(jù)可以任意打通,給公司業(yè)務部門或者給外部的客戶用,那是會帶來災難性的后果。這方面我們要更加謹慎,我們要從用戶的角度來考慮,把個人信息和數(shù)據(jù)保護放在優(yōu)先地位。”很多人將這解讀為騰訊不做數(shù)據(jù)中臺,史凱卻不這么認為。
在他看來,騰訊的回應并不是說他們不做數(shù)據(jù)中臺,而是強調(diào)要在數(shù)據(jù)隱私上做更多的工作。其實所有的數(shù)據(jù)安全和隱私的保護都需要從場景出發(fā)。史凱認為,“不能從純數(shù)據(jù)層面來看數(shù)據(jù)隱私,數(shù)據(jù)隱私是不能脫離場景的”。如果純粹從數(shù)據(jù)層面,而不從業(yè)務場景層面去管理數(shù)據(jù)隱私,就會帶來兩方面的問題,要么數(shù)據(jù)被管理的非常死,阻礙了業(yè)務價值的產(chǎn)生;要么數(shù)據(jù)隱私管理就會有漏洞。
史凱舉了一個例子,比如我們講的用戶交易數(shù)據(jù),如果不關聯(lián)用戶基本信息,交易數(shù)據(jù)本身對于用戶來說是不具備隱私風險的,因為它不關聯(lián)到任何一個用戶個體。所以,是可以對脫敏后的用戶交易數(shù)據(jù)進行分析和利用的。
另一方面,如果脫離場景談數(shù)據(jù)隱私,也可能會導致忽略了潛在的安全問題。有時候如果不把場景關聯(lián)起來,可能兩個數(shù)據(jù)看上去沒有安全問題,但其實外人把這兩個數(shù)據(jù)關聯(lián)起來就產(chǎn)生價值了。這也是為什么在一開始的時候就要把所有的場景,盡可能地全部分析出來。
另外,設置權限、數(shù)據(jù)分級審核、庫級數(shù)據(jù)脫敏等都是可以提升數(shù)據(jù)安全的手段。現(xiàn)代數(shù)據(jù)中臺必須具備數(shù)據(jù)調(diào)用行為的監(jiān)控和記錄機制,反過來也能增強對數(shù)據(jù)安全和隱私的保護。
當前國內(nèi)外已經(jīng)有不少公司開始投資建設數(shù)據(jù)中臺,大家比較熟悉的包括阿里、華為、聯(lián)想、海航、上汽、殼牌等。
在史凱看來,數(shù)據(jù)中臺當前處于上升發(fā)展期。雖然未來數(shù)據(jù)中臺未必還叫做數(shù)據(jù)中臺,但它一定會成為企業(yè)必備的基礎組件。
世界正在從信息化向數(shù)字化發(fā)展。信息化是指大部分的工作都在物理世界里完成,然后用信電腦的數(shù)字化世界解決一小部分問題。數(shù)字化則是把人從物理世界搬到數(shù)字化世界。從這個角度來講,數(shù)據(jù)中臺將會變成物理世界的業(yè)務在數(shù)字化世界的一個還原。
數(shù)據(jù)中臺設計的初衷是將計算與存儲分離,從狹義上來說,真正最核心的數(shù)據(jù)中臺可以是沒有存儲的。但就當前的情況來看,廣義的數(shù)據(jù)中臺在未來一段時間內(nèi)仍會涵蓋數(shù)據(jù)倉庫、數(shù)據(jù)湖等存儲組件,“數(shù)據(jù)工廠”這個概念可能更適用于現(xiàn)在的階段。但隨著數(shù)據(jù)中臺的發(fā)展,未來很有可能不再需要數(shù)據(jù)湖了。
最后,史凱也提到了阿里中臺戰(zhàn)略中的另一個中臺——“業(yè)務中臺”。他表示“當前業(yè)務中臺更偏實時交易,是從上往下沉淀業(yè)務;數(shù)據(jù)中臺目前更偏分析、決策和洞察,為業(yè)務提供 T N 和 T 0 的數(shù)據(jù)服務,但是再往前走,數(shù)據(jù)中臺跟交易會慢慢結合得更為緊密。隨著計算能力越來越強,以及微服務架構的進一步發(fā)展,未來業(yè)務中臺和數(shù)據(jù)中臺可能會融為一體。”
史凱,ThoughtWorks 數(shù)據(jù)和智能總監(jiān),精益數(shù)據(jù)創(chuàng)新體系的提出者,2019 年被評選為 DataIQ100 的數(shù)據(jù)賦能者,有近 20 年年的企業(yè)信息化、數(shù)字化轉型架構和實施經(jīng)驗,為眾多大型客戶提供數(shù)字化轉型戰(zhàn)略略規(guī)劃和咨詢實施服務。
技術雷達是 ThoughtWorks 推出的公益的、不限行業(yè)的技術選型趨勢報告,至今已堅持十年,旨在以雷達的表現(xiàn)形式,通過清晰的解讀,給技術人員提供高質(zhì)量、落地性強的技術平臺、工具框架方面的選型指導,助力企業(yè)數(shù)字化轉型。