新京報(bào)訊（記者吳為）在2025年“六一”兒童節(jié)前夕，一段機(jī)器狗在超市里靈活陪母子逛街、提包攜物、于人流中穿梭自如的視頻，在社交平臺(tái)傳播?！安豢窟b控也能自己跟著人走？”這段視頻不是擺拍，而是一項(xiàng)剛剛發(fā)布的前沿技術(shù)成果。銀河通用正式推出自主研發(fā)的產(chǎn)品級(jí)端到端導(dǎo)航大模型——TrackVLA，一款具備純視覺環(huán)境感知、語言指令驅(qū)動(dòng)、可自主推理、具備零樣本（Zero-Shot）泛化能力的具身大模型，讓機(jī)器人“滿大街跑”的想象從電影走進(jìn)現(xiàn)實(shí)。記者從中關(guān)村科學(xué)城管委會(huì)獲悉，今年以來，海淀區(qū)多項(xiàng)政策推動(dòng)人形機(jī)器人與具身智能領(lǐng)域產(chǎn)業(yè)發(fā)展。

“海淀區(qū)內(nèi)已經(jīng)集聚具身智能企業(yè)297家、人形機(jī)器人整機(jī)企業(yè)22家，擁有一批國內(nèi)外知名專家和學(xué)者?！庇浾邚闹嘘P(guān)村科學(xué)城管委會(huì)獲悉，中關(guān)村今年還發(fā)布了人形機(jī)器人的十大典型落地場景，我國人形機(jī)器人產(chǎn)業(yè)正從“單點(diǎn)突破”進(jìn)入“生態(tài)共建”的新階段。

機(jī)器狗視頻。受訪者提供

記者獲悉，TrackVLA 是銀河通用推出的產(chǎn)品級(jí)導(dǎo)航大模型，純視覺環(huán)境感知、自然語言指令驅(qū)動(dòng)、端到端輸出語言和機(jī)器人動(dòng)作，是一個(gè)由仿真合成動(dòng)作數(shù)據(jù)訓(xùn)練的“視覺-語言-動(dòng)作”（Vision-Language-Action, VLA）大模型。它讓機(jī)器人擁有“聽→看→懂→走”的閉環(huán)運(yùn)動(dòng)能力。一雙眼睛看世界、一個(gè)智能“大腦”做推理，無需提前建圖、無需搖操控制，真正實(shí)現(xiàn)語言驅(qū)動(dòng)、泛化感知、自主推理、智能交互與運(yùn)動(dòng)。

傳統(tǒng)機(jī)器人通常以“指令理解→環(huán)境感知→目標(biāo)識(shí)別→路徑規(guī)劃”模塊化的形式單獨(dú)處理分解的子任務(wù)，有的甚至還要對(duì)工作環(huán)境提前構(gòu)建地圖，而TrackVLA把這些能力通過一個(gè)統(tǒng)一的模型完成。

研發(fā)人員介紹，TrackVLA用一個(gè)大模型集成了感知能力、推理能力、運(yùn)動(dòng)能力和交互能力?？稍趶?fù)雜工作環(huán)境中清晰辨明服務(wù)對(duì)象，提供智能專屬服務(wù)，從而實(shí)現(xiàn)產(chǎn)品級(jí)的交互體驗(yàn)。TrackVLA讓機(jī)器人不再需要提前建圖，而是像人一樣可以在不同環(huán)境中自主導(dǎo)航。哪怕是沒見過的商場、電梯、游樂區(qū)，它都能像人類一樣依靠模型內(nèi)嵌的環(huán)境理解知識(shí)“現(xiàn)學(xué)現(xiàn)走”。

“從陪伴兒童到守護(hù)老人，從商場巡邏到室內(nèi)物流，機(jī)器人在泛服務(wù)場景中的應(yīng)用路徑已經(jīng)被銀河通用帶到公眾面前。具身智能真正具備了‘看得懂、想得明白、動(dòng)得起來’的一體化能力——即由視覺感知（眼）、智能決策（腦）到物理執(zhí)行（腿）的全鏈路閉環(huán)，為具身大模型走向現(xiàn)實(shí)世界奠定了通用能力基礎(chǔ)。”銀河通用有關(guān)研發(fā)人員介紹。

編輯張樹婧

校對(duì) 張彥君

17 +1

微博

微信