新京報(bào)訊(記者吳為)在2025年“六一”兒童節(jié)前夕,一段機(jī)器狗在超市里靈活陪母子逛街、提包攜物、于人流中穿梭自如的視頻,在社交平臺(tái)傳播?!安豢窟b控也能自己跟著人走?”這段視頻不是擺拍,而是一項(xiàng)剛剛發(fā)布的前沿技術(shù)成果。銀河通用正式推出自主研發(fā)的產(chǎn)品級(jí)端到端導(dǎo)航大模型——TrackVLA,一款具備純視覺環(huán)境感知、語言指令驅(qū)動(dòng)、可自主推理、具備零樣本(Zero-Shot)泛化能力的具身大模型,讓機(jī)器人“滿大街跑”的想象從電影走進(jìn)現(xiàn)實(shí)。記者從中關(guān)村科學(xué)城管委會(huì)獲悉,今年以來,海淀區(qū)多項(xiàng)政策推動(dòng)人形機(jī)器人與具身智能領(lǐng)域產(chǎn)業(yè)發(fā)展。
“海淀區(qū)內(nèi)已經(jīng)集聚具身智能企業(yè)297家、人形機(jī)器人整機(jī)企業(yè)22家,擁有一批國內(nèi)外知名專家和學(xué)者?!庇浾邚闹嘘P(guān)村科學(xué)城管委會(huì)獲悉,中關(guān)村今年還發(fā)布了人形機(jī)器人的十大典型落地場景,我國人形機(jī)器人產(chǎn)業(yè)正從“單點(diǎn)突破”進(jìn)入“生態(tài)共建”的新階段。
機(jī)器狗視頻。受訪者提供
記者獲悉,TrackVLA 是銀河通用推出的產(chǎn)品級(jí)導(dǎo)航大模型,純視覺環(huán)境感知、自然語言指令驅(qū)動(dòng)、端到端輸出語言和機(jī)器人動(dòng)作,是一個(gè)由仿真合成動(dòng)作數(shù)據(jù)訓(xùn)練的“視覺-語言-動(dòng)作”(Vision-Language-Action, VLA)大模型。它讓機(jī)器人擁有“聽→看→懂→走”的閉環(huán)運(yùn)動(dòng)能力。一雙眼睛看世界、一個(gè)智能“大腦”做推理,無需提前建圖、無需搖操控制,真正實(shí)現(xiàn)語言驅(qū)動(dòng)、泛化感知、自主推理、智能交互與運(yùn)動(dòng)。
傳統(tǒng)機(jī)器人通常以“指令理解→環(huán)境感知→目標(biāo)識(shí)別→路徑規(guī)劃”模塊化的形式單獨(dú)處理分解的子任務(wù),有的甚至還要對(duì)工作環(huán)境提前構(gòu)建地圖,而TrackVLA把這些能力通過一個(gè)統(tǒng)一的模型完成。
研發(fā)人員介紹,TrackVLA用一個(gè)大模型集成了感知能力、推理能力、運(yùn)動(dòng)能力和交互能力??稍趶?fù)雜工作環(huán)境中清晰辨明服務(wù)對(duì)象,提供智能專屬服務(wù),從而實(shí)現(xiàn)產(chǎn)品級(jí)的交互體驗(yàn)。TrackVLA讓機(jī)器人不再需要提前建圖,而是像人一樣可以在不同環(huán)境中自主導(dǎo)航。哪怕是沒見過的商場、電梯、游樂區(qū),它都能像人類一樣依靠模型內(nèi)嵌的環(huán)境理解知識(shí)“現(xiàn)學(xué)現(xiàn)走”。
“從陪伴兒童到守護(hù)老人,從商場巡邏到室內(nèi)物流,機(jī)器人在泛服務(wù)場景中的應(yīng)用路徑已經(jīng)被銀河通用帶到公眾面前。具身智能真正具備了‘看得懂、想得明白、動(dòng)得起來’的一體化能力——即由視覺感知(眼)、智能決策(腦)到物理執(zhí)行(腿)的全鏈路閉環(huán),為具身大模型走向現(xiàn)實(shí)世界奠定了通用能力基礎(chǔ)。”銀河通用有關(guān)研發(fā)人員介紹。
編輯 張樹婧
校對(duì) 張彥君