企業級AI平臺是個什么鬼?智能企業為什么需要他
首席數字官
2019-04-04
文 | 周陽
來源 | 凱哥講故事系列
一直在尋找一個東西,
我們需要一個AI平臺
所以,
AI平臺就是幫助企業基于現有資源充分、
這個生產工具類似于計算機/操作系統 - AI資源(算法,AI硬件,數據)/AI平臺,
所以,
AI平臺的組成
所以,AI平臺的構建首先是要滿足算法工程師的日常工作需要。
算法工程師根據自己設定的檢索條件獲取數據,并組裝訓練、
測試和驗證數據集; 算法工程師根據模型的需要對數據進行預處理;
算法工程師對于模型設定合適的超參數;
算法工程師申請GPU/CPU資源進行模型訓練,
查看模型的收斂效果; 算法工程師根據模型收斂情況和模型精度等指標判斷模型優化是否成
功; 根據模型優化結果決定模型是否發布上線;
模型優化達到上線指標,模型發布生產環境,正式上線。
結合算法工程師的日常工作,
數據準備
對于算法工程師而言,數據準備是非常重要,
想想看,
首先,啟動一個類似于Workbench一樣的數據庫管理工具;
鏈接正確的數據庫,手動翻查目標自動在那個表里;
找到之后,基于Sql做一些簡單的篩查;
... ...
額,忘記了,這是結構化數據,如果是圖片或者長文本數據,
所以,提供高效的數據準備功能是AI平臺必須具備的能力。
圖中,藍色圓圈標識一種數據處理程序,內涵可簡單可復雜,其中:
Clean:數據清洗,這是數據挖掘里的一個概念,
一般包括預處理、處理缺失數據、處理格式或內容錯誤的數據、 處理邏輯錯誤的數據、去除不必要的數據和關聯性驗證; Meta:基礎元數據抽取,例如數據類型、創建日期、創建人等;
Tag:數據打標簽,對數據進行粗力度等描述,例如場景(晴天、
上海、樹蔭)、文本語言等; Annotation:數據標注,這和AI領域強關聯,
NLP領域是對文本做實體標注、 計算機視覺領域則是對圖片進行實體標注, 當然基于不同的應用場景,標注本身又包含多種形式, 例如圖像標注中的目標框選、語義分割、3D/2.5D標注等。
可能還存在其他的數據處理環節,但是就數據準備而言,
檢索
數據檢索的拆解參看下圖:
除了結構化數據,半/非結構化數據都是基于全文檢索來實現的,
而構建索引也恰恰是數據準備中最為困難和復雜的一個環節。
注:Annotation產生的索引信息,
當各種維度的索引信息被構建之后,
組裝
數據組裝,就是在檢索功能之后,
對于檢索結果的組裝并不僅僅是數據的簡單組合,它內涵很豐富:
預覽:在檢索出結果以后,可以進行對象/記錄粒度的數據預覽,
例如查看圖片以及標注以后的圖片、 一封郵件的文本以及實體標注后的郵件內容等;更先進一些, 在數據組裝成數據集之后, 也可以對數據集中的數據進行同樣粒度的預覽。 去重:多次檢索的數據難免會有重復的數據出現,
組裝數據集的過程中需要進行去重處理。 關聯:對于同一個目標數據的標注結果,需要進行合并或者關聯,
只有這樣才能保證數據的完整性和準確性,同時減少冗余。 指標:用于衡量數據集質量,
例如統計一個圖片標注數據集中所有的標注對象數量, 可以以直方圖的形式展示; 也可以基于一些算法或標準查看數據集中數據的分布情況。 分布:用于衡量數據集質量的高級功能,
例如基于詞向量查看一個文本數據集中文本或句子的聚類情況; 對于時序類數據集基于指標展示時序分布圖等。
數據組裝的這些功能,看似和大數據平臺的BI有些類似,
下載
數據組裝成數據集之后,就可以進行數據預處理,
數據檢索、數據組裝對于數據的操作基本都可以在內存中完成,
所以,組裝后的數據集一定要下載到一個特定的存儲介質,
至于技術上使用什么樣的存儲介質,
模型訓練
模型訓練可以理解為一個AI模型的集成開發環境——IDE。
微軟在2018年公布了自己的AI平臺OpenPAI,
并心思巧妙的將之集成到Visual Studio2017,你看,還真給做成了一個IDE。
那么AI平臺到底是如何進行模型訓練的?參看下圖:
上圖可知,模型訓練核心是由兩個pipeline構成:
數據pipeline
有別于數據準備階段的數據處理環節,這里的預處理和模型、
注:針對不同領域或數據的預處理可能羅列的不夠全面,歡迎補充。
不同領域或數據的預處理有各自的特點,但是目標是相同的(其實,
有別于數據準備階段的數據處理的第二個不同點是數據集預處理往往
模型pipeline
runtime階段
模型pipeline準確的描述應該是模型訓練pipeline
從這個角度去看微軟把OpenPAI集成到VisualStud
runtime環節其實只是代碼開發階段,
training階段
training階段的工作就類似于冰山理論中海平面以下的內容
資源調度目前已經有了比較成熟的開源解決方案K8s(
注:K8s并不保證兼容所有廠商和型號的GPU,
也不保證兼容所有的FS,對于不同FS的I/ O性能目前也沒有官方的評測, 具體的技術細節需要企業在實施過程中自行調研,這里不做展開。
模型驗證
模型驗證包含兩個階段:
上線前的validation
這個環節通常包含在模型訓練的階段,
方法大體有兩種:
留一驗證:這個比較簡單,
就是從任務提供的數據中隨機采樣一定比例作為訓練集, 剩下的留作驗證集。通常這個比例為4:1,也就是80% 作為訓練,20%作為模型驗證。也有很多是會是3:1等等。 這有一個問題,那就是隨機采樣驗證集存在不確定性。 驗證集合不是測試集,這是不同的兩個概念。 交叉驗證:其實就是多次留一驗證的過程。
不過每次使用的驗證集之間是互斥的, 并且保證每一條可用數據都被模型驗證過。 例如所謂的5折交叉驗證,就是將所有可用數據隨機分為5分, 每次迭代用其中一組數據作為驗證集,其他四組作為訓練集。 相比留一驗證,交叉驗證更加可靠、穩定, 因為所有數據都被訓練和驗證過。
所以,
上線后的A/B測試
A/B測試必然和實際的生產環境和業務場景相關聯,
那么對于企業的AI平臺而言,結合自身業務構建業務端的A/
注:“生產環境帶標簽數據集”,
這意味著這個數據集絕對是生產環境新產生的數據集, 有別于模型訓練中使用的測試集、驗證集和訓練集合,其次結合A/ B測試的技術手段可知,metric Index是基于統計規律計算而來的評價指標, 所以需要具備足夠大的樣本空間(參考大數定律),也就是“ 生產環境帶標簽數據集”需要數據量足夠。
至于“生產環境帶標簽數據集”,恰恰和之前的“數據準備”
模型發布
模型訓練pipeline,目的是為了產出模型文件——
注:對于通用模型文件格式,Google有TenserRT、
微軟有ONNX, 由于目前對于此類技術的研究會同時涉及到AI框架和GPU芯片等 硬件層,所以每種格式都會有特定的限制條件, 構建AI平臺時一定調研清楚再做選擇。
除了通用的模型文件格式,另一個需要關注的點是模型發布的形式,
對于企業AI平臺而言, 基于http協議來發布加載模型的應用服務是必然的,
AI平臺的通用架構
在通觀AI平臺的組成之后,AI平臺的通用架構呼之欲出:
AI平臺的演進和未來
AI平臺目前也僅僅處于行業高速發展的起始段,
在文章伊始,AI平臺被定義為一種生產工具,
第一階段:AI平臺
注:預標注就是Pre-annotation。
上圖是AI平臺第一階段的演化,這種演化是基于功能的,簡言之,
第二階段:中臺發動機
當AI平臺和業務越發緊密,基于AI平臺能力的演進,
從更高的視角來審視這種趨勢,
總結
全文洋洋灑灑幾千字,
AI平臺的定位:AI平臺被定義為一種生產工具,
一種基于現有資源充分、 高效利用AI技術達到企業發展愿景的生產工具。 AI平臺的核心組成:包括四個大模塊——數據準備、模型訓練、
模型驗證和模型發布。 AI平臺的通用架構:層級架構,包括四個層級:借口層、
APIs、Core Services、Platform Services。 AI平臺的演進和未來:體現在兩個層面,
第一個層面是AI平臺自己的演化:模型文件到模型解決方案; 第二個層面是模型對于業務系統的改進,分三個階段: 替換業務環節演化到替換整體方案,最后到衍生出新的業務場景。 最終聯想到業務系統未來會向中臺的方向演進, 給出了企業中臺中AI平臺的價值和定位。
總體而言,就目前AI產業化發展的起步階段,
- 觀點
- 制造
- IT/互聯網
- CEO
- CTO
- CIO
- 生產制造
- 運營
- 大數據
- 協同辦公
- 云計算
推薦
-
11月28日-30日,中國數字化年會將于成都正式開幕,本屆年會以數智萬象 無界新生”為主題,設置2場主論壇、1場高峰論壇、5場專題論壇、4項特色活動、2場頒獎典禮等14項活動,以及2天數字化轉型供需對接展。
-
零次方科技發布了其首款人形機器人,可以在多種不規則路面、復雜地形中長時間穩定行走,且具備優秀的抗干擾性能,即使受到各方向的強沖擊也能保持穩定站立。
-
近日,第四屆“青年科學家502論壇”在南方科技大學舉行,美國國家工程院外籍院士沈向洋做了《通用人工智能時代,我們應該怎樣思考大模型》的主題演講,并給出了他對大模型的10個思考。
-
深度解析Meta Reality Labs的生態布局
-
TeleAI 李學龍團隊提出具身世界模型
-
2024 年 10 月 14 日,第 44 屆中東海灣信息技術展(GITEX Global)在阿聯酋迪拜開幕。紫光股份旗下新華三集團重磅亮相展會,以"精耕務實,為時代賦智慧"為主題,全面展示了公司"云-網-安-算-存-端"的全棧技術能力與國際生態合作成果。
我要評論