數(shù)據(jù)資產管理:管、存、算、規(guī)、治
2024-08-01
來源:數(shù)據(jù)治理體系
據(jù)研究表明,在數(shù)據(jù)分析的整個過程中,數(shù)據(jù)準備會占大約80%的時間。怎樣把數(shù)據(jù)收集起來,并確保數(shù)據(jù)可直接用于分析展示,是最麻煩、最耗時的事情,這在企業(yè)級的數(shù)據(jù)分析中也被稱為是“最臟最累”的活。倘若數(shù)據(jù)未處理妥當,炫酷好看的可視化展示也毫無意義。如果你參與過大型企業(yè)BI系統(tǒng)的建設,那就一定能有所感觸。無數(shù)的決策分析系統(tǒng)成為臨時的“政績工程”,一時名聲大噪之后卻無人問津,大多因為后續(xù)數(shù)據(jù)不準確,無法真正為業(yè)務、管理提供實質的服務。這實則為數(shù)據(jù)分析項目建設的悲哀。做好數(shù)據(jù)準備、保證數(shù)據(jù)質量,都是數(shù)據(jù)資產管理的范疇。國際數(shù)據(jù)管理協(xié)會(DAMA International)在《DAMA數(shù)據(jù)管理知識體系指南(原書第2版)》一書中,將數(shù)據(jù)管理(DM)定義為“為了交付、控制、保護并提升數(shù)據(jù)和信息資產的價值,在其整個生命周期中制訂計劃、制度、規(guī)程和實踐活動,并執(zhí)行和監(jiān)督的過程”。對于數(shù)據(jù)管理的職能,DAMA將其歸為十一大類:數(shù)據(jù)治理、數(shù)據(jù)架構、數(shù)據(jù)建模和設計、數(shù)據(jù)存儲和操作、數(shù)據(jù)安全、數(shù)據(jù)集成和互操作、文件和內容管理、參考數(shù)據(jù)和主數(shù)據(jù)、數(shù)據(jù)倉庫和商務智能、元數(shù)據(jù)、數(shù)據(jù)質量,如圖1所示。
▲圖1 DAMA數(shù)據(jù)管理框架
其中,數(shù)據(jù)架構、數(shù)據(jù)建模和設計、數(shù)據(jù)存儲和操作、數(shù)據(jù)集成和互操作、文件和內容管理、參考數(shù)據(jù)和主數(shù)據(jù)、元數(shù)據(jù)管理、數(shù)據(jù)倉庫和商務智能屬于“數(shù)據(jù)準備”的范疇,數(shù)據(jù)治理、數(shù)據(jù)安全、數(shù)據(jù)質量可以統(tǒng)一歸類為“數(shù)據(jù)治理”。結合DAMA對數(shù)據(jù)管理職能的分類及內容,可將數(shù)據(jù)準備分為“管”“存”“算”個層面,將數(shù)據(jù)治理分為“規(guī)”、“治”兩個層面,如圖2所示。
▲圖2 “管” “存” “算” “規(guī)” “治”
01數(shù)據(jù)之“管”
數(shù)據(jù)之“管”指狹義的數(shù)據(jù)管理,是對不同類別的數(shù)據(jù)采取不同的數(shù)據(jù)管理模式。這里我們把數(shù)據(jù)分為四個層次:元數(shù)據(jù)、主數(shù)據(jù)、參考數(shù)據(jù)、一般數(shù)據(jù)(交易數(shù)據(jù))。通過數(shù)據(jù)之“管”,來確保數(shù)據(jù)來源的可靠性、數(shù)據(jù)內容的準確性、數(shù)據(jù)安全性及數(shù)據(jù)粒度的精細性。
不同的數(shù)據(jù),根據(jù)其特性在數(shù)據(jù)量、更新頻率、數(shù)據(jù)質量和生命周期上有不同的特點。從數(shù)據(jù)的作用及管理的方式上來講,我們把數(shù)據(jù)分為四個層次:元數(shù)據(jù)、主數(shù)據(jù)、參考數(shù)據(jù)、一般數(shù)據(jù)(交易數(shù)據(jù)),如圖3所示。這里提到的數(shù)據(jù)之“管”,即指管理好這四個層次數(shù)據(jù)。
▲圖3 數(shù)據(jù)層次元數(shù)據(jù)(Metadata)
通俗地說就是描述數(shù)據(jù)的數(shù)據(jù),比如數(shù)據(jù)的名稱、屬性、分類、字段信息、大小、標簽等等。要做好數(shù)據(jù)的管理,元數(shù)據(jù)起到了舉足輕重的作用。參考數(shù)據(jù)(Reference Data):是用于將其他數(shù)據(jù)進行分類或目錄整編的數(shù)據(jù),它定義了數(shù)據(jù)可能的取值范圍,可以理解為屬性值域,也就是數(shù)據(jù)字典。參考數(shù)據(jù)一方面有助于在TP(業(yè)務處理)側提升業(yè)務流程的準確性,另一方面在AP(數(shù)據(jù)分析)側規(guī)范數(shù)據(jù)的準確性,為多系統(tǒng)綜合分析提供有利的保障。主數(shù)據(jù)(Master Data):指具有高業(yè)務價值的,關于關鍵業(yè)務實體的權威的、最準確的數(shù)據(jù),被稱為“黃金”數(shù)據(jù)。通常用于建立與交易數(shù)據(jù)的關聯(lián)關系來進行多維度的分析。一般數(shù)據(jù):也就是交易數(shù)據(jù)。相對來說,我們可以認為元數(shù)據(jù)、參考數(shù)據(jù)、主數(shù)據(jù)為靜態(tài)數(shù)據(jù),而一般數(shù)據(jù)則是動態(tài)數(shù)據(jù)。它一般隨著業(yè)務的發(fā)生而變化,比如資金交易流水。
02數(shù)據(jù)之“存”
數(shù)據(jù)之“存”指數(shù)據(jù)存儲,指通過技術手段將數(shù)據(jù)存儲起來。涉及三個關鍵詞是“數(shù)據(jù)湖”、“數(shù)據(jù)倉庫”和“數(shù)據(jù)集市”。數(shù)據(jù)的有效性、及時性、相關性、一致性、安全性、準確性,其來源的可靠性、粒度的精細性,最終都會體現(xiàn)在“存”之上,具備上述條件的數(shù)據(jù)組合,幫助數(shù)據(jù)實現(xiàn)了其“豐富性”。如果把數(shù)據(jù)比作是源源不斷的水,那么,數(shù)據(jù)湖可以比作湖泊,數(shù)據(jù)倉庫可以比作水庫,數(shù)據(jù)集便是超市。水在不斷的加工制造中,最后成為超市中的瓶裝水供人直接食用,就好比原始數(shù)據(jù)經過加工處理最終成為數(shù)據(jù)集市中直接可用于分析的數(shù)據(jù)。如圖4所示。
▲圖4 數(shù)據(jù)湖、數(shù)據(jù)倉庫和數(shù)據(jù)集數(shù)據(jù)湖、數(shù)據(jù)倉庫和數(shù)據(jù)集形成了數(shù)據(jù)存儲的三個層次,三者層層遞進,各自發(fā)揮著其不同的作用。數(shù)據(jù)湖為非結構化數(shù)據(jù)分析、機器學習、預測分析提供了豐富的數(shù)據(jù)土壤;數(shù)據(jù)倉庫通過規(guī)范化的管理,為企業(yè)、組織系統(tǒng)化的規(guī)范數(shù)據(jù)體系提供了支撐;數(shù)據(jù)集則將數(shù)據(jù)場景化,讓數(shù)據(jù)觸手可得,實現(xiàn)即席分析。數(shù)據(jù)湖(Data Lake,DL),是指一個集中化存儲海量的、多個來源、多種類型數(shù)據(jù),并可以對數(shù)據(jù)進行快速加工、分析的平臺。數(shù)據(jù)倉庫(Data Warehouse,簡稱DW或DWH),是為支持決策而產生的數(shù)據(jù)池,它是整個組織中的各級人員可能感興趣的、當前和歷史的所有類型數(shù)據(jù)的戰(zhàn)略集合。數(shù)據(jù)集市(Data Mart,DM),是滿足特定的部門或者用戶的需求,按照多維的方式進行存儲,生成面向決策分析需求的數(shù)據(jù)集合。
03數(shù)據(jù)之“算”
數(shù)據(jù)之“算”,指的是數(shù)據(jù)預處理之“算”。為了保證數(shù)據(jù)分析時數(shù)據(jù)可用、好用而對數(shù)據(jù)進行的加工。是指對數(shù)據(jù)的清洗和加工,包括簡單的清洗和處理,也包括通過智能手段如借助算法模型對數(shù)據(jù)的清洗和加工。數(shù)據(jù)預處理的關鍵鏈路如圖5所示。原始數(shù)據(jù)納入數(shù)據(jù)湖的管理,通常混雜著各種數(shù)據(jù)。要防止數(shù)據(jù)湖變?yōu)閿?shù)據(jù)沼澤,就需要將數(shù)據(jù)碎片分門別類,將不可洞察的數(shù)據(jù)和無關數(shù)據(jù)歸類為數(shù)據(jù)噪聲,留下可洞察的數(shù)據(jù)和相關的數(shù)據(jù),我們稱之為“信息元”。這類數(shù)據(jù)進一步通過數(shù)據(jù)加工形成整理后的數(shù)據(jù),與可直接洞察的數(shù)據(jù)共同構成了可分析的數(shù)據(jù)。
▲圖5 數(shù)據(jù)預處理我們前面提到數(shù)據(jù)處理大約占了數(shù)據(jù)分析80%的時間,而在數(shù)據(jù)處理的過程中,數(shù)據(jù)清洗幾乎會占據(jù)40%~70%的時間,且數(shù)據(jù)質量越差,其占比越高。數(shù)據(jù)清洗不能被孤立的看待,通過借助對元數(shù)據(jù)信息、數(shù)據(jù)分布情況的分析,甚至是根據(jù)分析結果的異常性來對數(shù)據(jù)進行有效的清理,會事半功倍。所以,數(shù)據(jù)清洗和數(shù)據(jù)分析也是相輔相承,互相依賴、互相促進的。常見數(shù)據(jù)清洗包括對缺失值的處理和異常值的處理。數(shù)據(jù)加工包括數(shù)據(jù)變換、數(shù)據(jù)結構轉換、表間數(shù)據(jù)處理等。ETL(抽取Extract、轉換Transform、加載Load)將上述數(shù)據(jù)清洗、數(shù)據(jù)加工的方法串聯(lián)起來,形成完整的數(shù)據(jù)之“算”鏈路體系,是數(shù)據(jù)準備過程中最重要的一環(huán)。
04數(shù)據(jù)之“規(guī)”
數(shù)據(jù)之“規(guī)”指數(shù)據(jù)規(guī)范,包括對數(shù)據(jù)規(guī)范的制定和數(shù)據(jù)管理上的規(guī)章制度。“規(guī)”是確保數(shù)據(jù)有效性、安全性的基石。數(shù)據(jù)的規(guī)范,包括兩個層面。一方面針對數(shù)據(jù)本身,即數(shù)據(jù)標準;另一方面是數(shù)據(jù)管理上的規(guī)范和制度。我們可以通俗的理解為數(shù)據(jù)分析中的“法”。數(shù)據(jù)標準數(shù)據(jù)來源的多樣化帶來了數(shù)據(jù)的不一致性,多源系統(tǒng)數(shù)據(jù)整合的關鍵首先就是建立數(shù)據(jù)標準。數(shù)據(jù)標準的定義應遵循一定的原則,包括唯一性、統(tǒng)一性、通用性、穩(wěn)定性、前瞻性、可行性“六大特性”和系列化、模塊化“兩化原則”。基于上述特性和原則,數(shù)據(jù)標準從內容層次上可以分為語義標準、數(shù)據(jù)結構標準和數(shù)據(jù)內容標準。通過建立語義標準體系,保證整個組織層面關于數(shù)據(jù)分析的溝通“在一個頻道上”;通過建立數(shù)據(jù)結構體系,統(tǒng)一數(shù)據(jù)資源目錄及數(shù)據(jù)命名規(guī)則以確保數(shù)據(jù)規(guī)整、易查找;通過建立數(shù)據(jù)內容標準,根據(jù)業(yè)務梳理數(shù)據(jù)標簽及數(shù)據(jù)描述規(guī)則以提升分析效率。數(shù)據(jù)規(guī)范數(shù)據(jù)標準的執(zhí)行,需要依賴制度的規(guī)范。無體系、無制度的管理無異于一般散沙。數(shù)據(jù)規(guī)范可以大致分為數(shù)據(jù)基礎規(guī)范、數(shù)據(jù)安全規(guī)范、數(shù)據(jù)質量規(guī)范三大類,如圖7所示。
▲圖6 數(shù)據(jù)規(guī)范體系
05數(shù)據(jù)之“治”
數(shù)據(jù)之“治”指狹義的數(shù)據(jù)治理,實質上指數(shù)據(jù)治理相關的一套方法及體系,包括了實踐數(shù)據(jù)之“規(guī)”來確保數(shù)據(jù)質量的過程和方法。它不僅是技術上的治理工作,更是以有效滿足組織各層級管理訴求的有效手段,它應該是包括數(shù)據(jù)、應用、技術和組織的四位一體均衡的治理體系。數(shù)據(jù)治理,最重要的目標就是保證數(shù)據(jù)質量,即數(shù)據(jù)的一致性及準確性。理論體系總是看起來完美無缺,但應用到實際中,往往是“理想是豐滿的,現(xiàn)實是骨感的”。先不說平臺如何搭建、技術如何選擇、如何保障安全性,真正深入到工作中,會發(fā)現(xiàn),所有技術上的難題都不是最難的,如何說服各個部門主動配合數(shù)據(jù)收集工作,是最大的難點。所以,數(shù)據(jù)治理實質上并不只是技術問題,更是一個管理問題。做好數(shù)據(jù)治理,一定首先是自上而下的發(fā)起,其次是有足夠的組織保障,再次是建立切實有效的機制體系。
▲圖7 數(shù)據(jù)治理
數(shù)據(jù)治理需要依賴強大的統(tǒng)籌能力和管理能力才能得以實現(xiàn),對于較大型的企業(yè)和組織來說,通常都是“吃力不討好”的活,要真正通過數(shù)據(jù)治理做出成效,是一件非常困難的事情。所以,這里一再強調的重中之重便是“高層負責”。高層負責是基礎,切實有效地將數(shù)據(jù)治理落實下去,還需要有合理的“組織保障”。各業(yè)務部門的人通常都會被各類事務纏身,對他們來說,數(shù)據(jù)的梳理、整合一直是被認為重要但確經常無暇關注的事情。建立專門的數(shù)據(jù)主責部門,負責統(tǒng)一的管理協(xié)調工作,再由各業(yè)務部門配合各類業(yè)務數(shù)據(jù)的提供和質量保障,才是正解。數(shù)據(jù)團隊快速的運轉離不開“機制建立”。機制需要建立在規(guī)范的基礎上,不同的是,它更側重強調管理、監(jiān)控和流程。因此,不同的企業(yè)、組織均需要根據(jù)自身的組織架構和文化體系制定適合自己的機制。值得注意的,一方面是各環(huán)節(jié)責任人的落實,另一方面是需要在全面性和可執(zhí)行性、規(guī)范性和時效性方面做一個平衡。做好數(shù)據(jù)資產管理,是數(shù)據(jù)分析的重要基礎和保障。“管”、“存”、“算”、“規(guī)”、“治”是各類組織做好數(shù)據(jù)資產管理可以借鑒的有效手段。其中,“管”、“存”、“算”是業(yè)界已經形成的標準的基礎知識,可以直接使用;“規(guī)”、“治”則在不同的企業(yè)、組織中需要因地制宜,選擇適合自身的規(guī)范制度及治理機制。
- 推薦
- 新聞
- 觀點
- 制造
- 批發(fā)零售
- 房地產
- 住宿餐飲
- 金融
- 銀行
- 保險
- 證券
- 基金
- 交通物流
- 能源化工
- IT/互聯(lián)網
- 建筑
- 農業(yè)
- 教育
- 醫(yī)療衛(wèi)生
- 采礦
推薦
-
11月28日-30日,中國數(shù)字化年會將于成都正式開幕,本屆年會以數(shù)智萬象 無界新生”為主題,設置2場主論壇、1場高峰論壇、5場專題論壇、4項特色活動、2場頒獎典禮等14項活動,以及2天數(shù)字化轉型供需對接展。
-
零次方科技發(fā)布了其首款人形機器人,可以在多種不規(guī)則路面、復雜地形中長時間穩(wěn)定行走,且具備優(yōu)秀的抗干擾性能,即使受到各方向的強沖擊也能保持穩(wěn)定站立。
-
近日,第四屆“青年科學家502論壇”在南方科技大學舉行,美國國家工程院外籍院士沈向洋做了《通用人工智能時代,我們應該怎樣思考大模型》的主題演講,并給出了他對大模型的10個思考。
-
深度解析Meta Reality Labs的生態(tài)布局
-
TeleAI 李學龍團隊提出具身世界模型
-
2024 年 10 月 14 日,第 44 屆中東海灣信息技術展(GITEX Global)在阿聯(lián)酋迪拜開幕。紫光股份旗下新華三集團重磅亮相展會,以"精耕務實,為時代賦智慧"為主題,全面展示了公司"云-網-安-算-存-端"的全棧技術能力與國際生態(tài)合作成果。
-
中關村大數(shù)據(jù)產業(yè)聯(lián)盟 顏陽-元宇宙產業(yè)的商業(yè)邏輯與技術壁壘研究
顏陽 中關村大數(shù)據(jù)產業(yè)聯(lián)盟副秘書長 ¥9.90 金錦囊免費
我要評論