新京報訊(記者張璐)6月9日,記者從中國科學(xué)院自動化研究所獲悉,科研人員結(jié)合行為實驗與神經(jīng)影像分析,首次證實多模態(tài)大語言模型(MLLMs)能夠自發(fā)形成與人類高度相似的物體概念表征系統(tǒng)。相關(guān)研究成果發(fā)表于《自然·機器智能》。
人類能夠?qū)ψ匀唤缰械奈矬w進行概念化,這一認知能力長期以來被視為人類智能的核心。當(dāng)我們看到狗、汽車或蘋果時,不僅能識別它們的物理特征,比如尺寸、顏色、形狀等,還能理解其功能、情感價值和文化意義,這種多維度的概念表征構(gòu)成了人類認知的基石。
隨著ChatGPT等大語言模型(LLMs)的發(fā)展,一個根本性問題浮出水面:這些大模型能否從語言和多模態(tài)數(shù)據(jù)中發(fā)展出類似人類的物體概念表征?
近日,中國科學(xué)院自動化研究所神經(jīng)計算與腦機交互(NeuBCI)課題組與中國科學(xué)院腦科學(xué)與智能技術(shù)卓越創(chuàng)新中心的聯(lián)合團隊結(jié)合行為實驗與神經(jīng)影像分析,首次證實多模態(tài)大語言模型能夠自發(fā)形成與人類高度相似的物體概念表征系統(tǒng)。這項研究不僅為人工智能認知科學(xué)開辟了新路徑,更為構(gòu)建類人認知結(jié)構(gòu)的人工智能系統(tǒng)提供了理論框架。
論文通訊作者何暉光研究員說,傳統(tǒng)人工智能研究聚焦于物體識別準(zhǔn)確率,卻鮮少探討模型是否真正“理解”物體含義?!爱?dāng)前AI能區(qū)分貓狗圖片,但這種‘識別’與人類‘理解’貓狗的本質(zhì)區(qū)別仍有待揭示。”團隊從認知神經(jīng)科學(xué)經(jīng)典理論出發(fā),設(shè)計了一套融合計算建模、行為實驗與腦科學(xué)的創(chuàng)新范式。通過分析470萬次行為判斷數(shù)據(jù),團隊首次構(gòu)建了AI大模型的“概念地圖”。
研究人員從海量大模型行為數(shù)據(jù)中提取出66個“心智維度”,并為這些維度賦予了語義標(biāo)簽。研究發(fā)現(xiàn),這些維度是高度可解釋的,且與大腦類別選擇區(qū)域的神經(jīng)活動模式顯著相關(guān)。
研究還揭示了人類在做決策時更傾向于結(jié)合視覺特征和語義信息進行判斷,而大模型則傾向于依賴語義標(biāo)簽和抽象概念。研究表明,大語言模型內(nèi)部存在著類似人類對現(xiàn)實世界概念的理解。
編輯 白爽
校對 柳寶慶