從“治理”到“架構”:數據管理的進化之路!
2024-07-15
來源:科技中通
一、背景
為什么要做數據架構治理?數字轉型,治理先行。
數字化的應用是整個行業高速發展的源動力之一,快遞行業日新月異,規模龐大,數字化能夠使管理升級,提高整個內部的運營效率,降低相關的運營成本。在打破數據孤島,鏈接用戶跟快遞員、網點、商家等角色的過程中,數字化都發揮著很大的作用。簡單來說,數字化就是一道門,你被關在門外面,那未來很可能就會被淘汰。而數據架構治理,就是為中通數字化轉型打下了基礎。
二、現狀
1、數據標準
中通目前有500+的產品,這些持久化在存儲上就是有100W+的數據庫表。并且業務量以每年20%-30%的速度高速增長。各業務部門、開發團隊的數據標準不一致,在數據打通和整合過程中會出現很多問題。所以就必須建立數據標準和推動數據模型的落地來對數據未來狀態的規范,包括對數據的名稱、含義、結構、取值及數據間關系的規范,以此對數據庫表結構、字段定義進行指導約束。
2、數據安全
公司目前沒有平臺來做數據分類、敏感數據的標記,數據以什么形式對外提供出去不明確 ,什么數據可以對外暴露不明確 。一旦隱私數據泄露,對業務的影響非常大,甚至能影響整個業務的生死。同時對數據文件、圖片、文件、音視頻等類型數據的定期的備份恢復策略也沒有制定,一旦誤刪除可能會導致數據的永久丟失。
3、數據模型
由于前期的快速發展,難免會遺留一下歷史的原因,比如數據的上下游依賴公司就很難去識別到,隨著業務的變動很容易出現上游發生變更,但下游卻不知道的問題。開發的數據對象,都是通過口口相傳。模型梳理難以完成,導致在數據開發和數據管理過程中都會遇到一些效率低的問題,開發不清楚數據的上下游是如何使用的。
4、數據質量
缺乏跨團隊的數據工程流程,經常會導致“掛羊頭賣狗肉”的情況,比如字段明明是網點名稱,數據庫里卻是網點名稱和網點編號都有存儲在這一列,導致各個團隊的成熟度不同,團隊間沒有一致的數據質量定義或指標。
三、怎么做數據架構治理
1、傳統的數據治理是怎么做的
頂層規劃設計的方法在五到十年前比較盛行,多源于國外咨詢公司基于國際理論(如DAMA-DMBOK)結合自身實踐積累形成的方法論,用這些理論框架為企業進行全面的現狀調研,基于此再進行數據治理組織、數據治理工作內容/流程/制度、數據治理平臺及未來建設路徑的規劃。其交付物通常是厚厚的調研報告、設計報告和PPT,項目周期在半年甚至更長。頂層規劃設計的方法好處在于有理論依據,體系完整,能夠幫助客戶達成對數據治理全貌的理解和共識,有利于推動后續工作開展。
但其也有許多不足,如過于理論化與企業實際情況結合不緊,導致管理組織和流程都無法落地;漫長的項目周期中,只部分解決了數據治理管理能力建設的問題,但并未解決實際數據問題、沒有提升數據質量甚至業務質量、數據價值也沒有顯著發揮出來。因此,成果也看起來很厚重,但實效并不大。
2、我們是怎么做的
從一開始也想過自上而下的這樣推動數據治理,但是就如上面所述,項目周期太長,同時實際效果也不一定很好。因此結合公司的實際情況,先治理關鍵流程:數據標準管理、數據模型管理、數據上下游鏈路管理、敏感數據管理以及數據的全生命周期管理。同時連同業務部門,按照產品線進行劃分,小范圍內快速驗證和迭代數據治理相關的方法、流程、規范,然后再復制推廣。總體的思路就是:定規范,建平臺,建體系。
四、規范
結合公司的現狀,對數據的全生命流程進行梳理,針對關鍵節點梳理出了:數據存儲選型規范、數據建模管理規范、數據分發管理規范、數據生命周期管理規范。
1、數據存儲選型規范
架構師在工作中經常會遇到數據庫存儲選型的問題,而市面上數據庫產品眾多,往往會無從下手,甚至有時候從業務開發到上線運維過程中會多次更換底層數據庫,給整個研發中心帶來不必要的額外工作,數據存儲選型對于一個給定的應用環境,針對公司現有業務背景和整個DBA團隊技術儲備,選取最優的數據庫類型,建立數據庫及其應用系統,使之能夠有效地存儲數據,滿足各種用戶的應用需求。
2、數據建模管理規范
針對數據的開發設計階段,將數據對象抽象成邏輯模型和物理模型,同時針對表、字段、數據庫的命名和設計制定了一系列的規范并前置到邏輯模型設計階段,同時針對持久化到數據庫上進行流程管控。
數據建??傮w流程:
3、數據分發管理規范
對于現在公司的數據實際情況,數據分發應該嚴格按照分發數據量進行分發類型選擇,并且除了SQL查詢方式之外,都應使用中通數據分發平臺ZDTP進行數據分發,并且通過訂閱方式對數據下發至各個合規終端,同時通過可配置的軟件或工具對源數據進行收集、處理以達到符合中通內部或合規的外部第三方生產需求的操作,以上所有的操作均有流程進行管控。
4、數據生命周期管理規范
結合公司實際,針對科技中心所管轄的所有數據,文件,圖片,視頻,錄音等存儲。將數據進行分級分類,按照對應的級別的不同制定不同的生命周期管理策略。
數據敏感級別屬于數據安全領域,敏感等級不同的數據對內使用時受到的保護策略不同,對外共享開放的程度也不同。數據管理者負責制定其領域內數據敏感等級的劃分規則,并制定和發布本部門的數據敏感等級目錄。
數據分類治理是實現不同部門之間數據共享互認的目的。通過分類標識,將分散的、存儲在不同系統的數據內容,打破數據的孤島,進行有效匹配,指定不同的數據敏感級別,理清各方的數據權限,達到數據安全治理的目的。
根據數據級別的不一樣,制定不一樣的數據保留策略:
五、平臺
為了保障上述規范的落地,連同技術平臺團隊,建設了數據建模平臺,將建模平臺放入統一的運管平臺,為用戶提供一站式的開發服務。
中通數據建模平臺是由中通科技完全自主開發的擁有知識產權的跨平臺數據庫建模工具,相較于傳統的PowerDesigner之類的C/S架構的建模工具,采用更加輕便的B/S的架構設計,更符合公司的產品規劃。數據建模平臺不僅能夠按照公司產品粒度進行mysql等傳統關系型數據庫的對接,還可以提供國產數據庫如TIDB的對接,并且將將應用對應的物理庫抽象成一個邏輯庫,用戶可以制定環境生成物理模型。
并且按照產品線進行劃分,提供私有詞典和標準詞典供用戶進行標準字段的引用。私有詞典是在本產品線引用的標準字段,標準詞典是中心藏經閣維護的一系列標準的基礎數據供給所有產品線進行引用。在模型設計階段提供可視化的模型設計能力,可以可視化的新增、編輯、刪除模型,并針對字段順序可進行拖拽排序,為方便模型的管理,還提供了模型的自定義分組。并且在設計階段就將數據的分類和敏感數據的標記要求在模型中體現。
針對于分庫分表的模型,將按照分片的規則將物理存儲上的多個分表在建模平臺上抽象成一個模型。并且內置了mod和hash算法,可以按照用戶配置的分表設置,快速的生成分庫分表/分表的模型。
同時針對模型的變更,提供了版本管控的功能,平臺會記錄模型的各個版本的元數據信息,并提供不同環境的模型快速部署和回滾的服務。并且模型的所有的變更都和IDB進行了打通,每次應用都會生成IDB的工單進行快速部署。
相較于傳統的C/S建模工具,也提供了web端的數據模型關系操作工作臺,用戶進行全局的數據模型的瀏覽,并支持放大縮小以及導出??梢匀我馔献P偷奈恢眠M行保存,并且可以任意的進行模型之間的關系的維護。針對于初始化模型較多的產品還有搜索聚焦以及自適應布局功能。
同時針對大家呼聲較高的數據庫資源使用情況展示,本次將物理庫的一些資源使用情況進行了展示,目前將數據庫的配置、狀態、QPS、TPS、連接數、最大連接數。物理表的表大小、表大小的變化趨勢、寫入、更新、刪除的操作統計。
六、未來的計劃
數據治理不是一蹴而就的,它是一個漫長而持續的過程,未來將在平臺完善、治理服務、體系化運營這三塊持續努力,對數據安全、資源利用、數據質量等各方面進行治理。
- 科研/技術服務
- 推薦
- 新聞
- 觀點
- 制造
- 批發零售
- 房地產
- 住宿餐飲
- 金融
- 銀行
- 保險
- 證券
- 基金
- 交通物流
- 能源化工
- IT/互聯網
- 建筑
- 農業
- 教育
- 醫療衛生
下一篇
推薦
-
一年一度的中國數字化年會將于11月28日-30日再次攜手成都,為數字化轉型決策者們打造一場不可錯過的年度數字化盛宴!
-
在這個日新月異的變革時代,我們將于11月28日-30日在成都舉辦“2024中國數字化年會”,匯聚行業精英與各界力量,共同探討數字化時代下的轉型策略與路徑。
-
11月28日-30日,中國數字化年會將于成都正式開幕,本屆年會以數智萬象 無界新生”為主題,設置2場主論壇、1場高峰論壇、5場專題論壇、4項特色活動、2場頒獎典禮等14項活動,以及2天數字化轉型供需對接展。
-
零次方科技發布了其首款人形機器人,可以在多種不規則路面、復雜地形中長時間穩定行走,且具備優秀的抗干擾性能,即使受到各方向的強沖擊也能保持穩定站立。
-
近日,第四屆“青年科學家502論壇”在南方科技大學舉行,美國國家工程院外籍院士沈向洋做了《通用人工智能時代,我們應該怎樣思考大模型》的主題演講,并給出了他對大模型的10個思考。
-
深度解析Meta Reality Labs的生態布局
我要評論