國內首個自研架構類腦大模型
2024-10-25
來源:36氪
探尋大模型的起源,始于2017年那篇谷歌的《Attention Is All You Need》論文。其造性地提出了具備處理局部和長程依賴關系能力、契合GPU對大規模數據進行并發處理的Transformer架構(以下簡稱:T架構),一舉推動了GPT的問世。
但其盛名之下,不少人也忽略了T架構的兩大缺陷:其一,運算機制過度依賴“矩陣乘法”,算力消耗過大;二是單次運算需調用所有計算單元,算力與存儲消耗過大。
這意味著,無論是訓練或推理,面對大量數據集與長輸入序列時,T架構需無數次重復檢索大模型權重(記憶體)中已有信息,將新數據與既有數據的相對距離進行逐一比對。這種“逐字逐句翻書本,從封面翻到封底”的處理機制,既賦予了其“精準捕獲長距離依賴”的能力,也帶來了巨額的算力與存儲開銷。
在T架構性能表現日趨老化的背景下,一些AI大模型公司開始探索非T架構研發,并在技術、產業、應用與合規層面實現突破。硬氪近日接觸到的「陸兮科技」,正是一家專注從零開始搭建自研類腦架構的大模型公司。
「陸兮科技」CTO周芃告訴硬氪,類腦大模型采用了模仿人腦結構和功能的“類腦算法”路線,又稱“腦啟發算法”路線。與Transformer架構和泛GPT類模型相比,人腦的運算與存儲機制效能明顯更高。
運算時,人腦采用“稀疏計算”機制,僅需調取與當次計算直接相關的神經元,其余閑置神經元均處于休眠狀態。在存儲時,人腦無需重復“翻書”,對比新舊數據時只需調用高保真壓縮后的記憶體,信息本身則處于“隱狀態”中。
“直觀來說,T架構驅動的大模型要實現大規模部署,所消耗的算力預計需占滿幾百甚至上千平米的機房,所消耗的電力需由多做水電站共同驅動。對比之下,人腦完成同樣難度的計算,靠我們每天吃進去的米飯、饅頭、蔬菜、肉類即可驅動。”周芃解釋到。
基于這一思考下,「陸兮科技」提出了“NEURARK類腦架構”,通過復刻人類大腦高保真、輕量化、低功耗、零延遲的運算與存儲機制,通過簡化底層運算機制,運用“點乘 + 加法”等低能耗運算,來替代“矩陣乘法”的高能耗預算模式。
同時,「陸兮科技」還搭建了與人腦存儲模式近似的“隱狀態管理”機制,可以在大模型推理過程中,僅需調用記憶體,而無需調用既有數據集的方法,將數據存儲占用降至極低。
目前,「陸兮科技」“NEURARK類腦架構”已同信息產業頭部國央企達成合作簽約,在通用醫療大模型、糖尿+甲乳專病大模型等領域開展共同研發與產品推廣。其中,類腦醫療大模型已于國內某中部省份多家三甲醫院、醫聯體網絡醫院與重點科室實現預部署。
此外公司還同金融、教育、氣象、水利、政務、網絡安全等基礎設施行業的政府單位、國央企與頭部廠商也已與其達成合作意向,部分已完成簽約。多家智能設備主機廠商、芯片廠商正同「陸兮科技」在積極接洽中,希望在大模型芯片適配、端側智能操作系統研發、智能設備定制化設計等領域運用類腦架構與類腦大模型。
硬氪了解到,由「陸兮科技」自主研發的類腦大模型,已于今年8月獲得國家網信辦《生成式人工智能服務備案》,這也是國內首個取得該項備案的自研架構大模型、非Transformer架構大模型和采用“腦啟發算法”技術路線的大模型,其非T架構大模型即將正式上線。
- 新聞
- IT/互聯網
- 科研/技術服務
- 通信
- 軟件信息
- CEO
- CTO
- CDO
- 智能制造
- 人工智能
- 研發
- 生產制造
- IT
推薦
-
11月28日-30日,中國數字化年會將于成都正式開幕,本屆年會以數智萬象 無界新生”為主題,設置2場主論壇、1場高峰論壇、5場專題論壇、4項特色活動、2場頒獎典禮等14項活動,以及2天數字化轉型供需對接展。
-
零次方科技發布了其首款人形機器人,可以在多種不規則路面、復雜地形中長時間穩定行走,且具備優秀的抗干擾性能,即使受到各方向的強沖擊也能保持穩定站立。
-
近日,第四屆“青年科學家502論壇”在南方科技大學舉行,美國國家工程院外籍院士沈向洋做了《通用人工智能時代,我們應該怎樣思考大模型》的主題演講,并給出了他對大模型的10個思考。
-
深度解析Meta Reality Labs的生態布局
-
TeleAI 李學龍團隊提出具身世界模型
-
2024 年 10 月 14 日,第 44 屆中東海灣信息技術展(GITEX Global)在阿聯酋迪拜開幕。紫光股份旗下新華三集團重磅亮相展會,以"精耕務實,為時代賦智慧"為主題,全面展示了公司"云-網-安-算-存-端"的全棧技術能力與國際生態合作成果。
我要評論