
凤凰网科技讯 1月29日,机器东谈主公司宇树科技秘书开源其视觉-谈话-当作(VLA)大模子 UnifoLM-VLA-0。该模子旨在处理传统视觉谈话大模子(VLM)在物理交互中的局限开云体育,通过针对性的预锻真金不怕火,使之从图文壮健才气进化成具备物理学问的“具身大脑”。

据官方先容,UnifoLM-VLA-0 是 UnifoLM 系列下挑升面向通用东谈主形机器东谈主操作的模子。其基于开源的 Qwen2.5-VL-7B 模子构建,使用了掩饰通用与机器东谈主场景的多任务数据集进行接续预锻真金不怕火,以擢升模子对几何空间与语义逻辑的对皆才气。
模子的中枢打破在于针对操作任务的高要求,深度会通了文本教导与2D/3D空间细节,并构建了全链路能源学揣度数据以增强任务泛化性。额外地,宇树在模子架构上集成了当作揣度头,并对开源数据集进行了系统化清洗,最终仅哄骗约340小时的真机数据,勾通当作分块揣度与能源学拘谨,杀青了对复杂当作序列的斡旋建模与永劫序狡计。
评估恶果线路,该模子在多个空间壮健基准上的才气较基础模子有显贵擢升,并在“no thinking”模式下可并排 Gemini-Robotics-ER 1.5。在 LIBERO 仿真基准测试中,其多任务模子也取得了接近最优的性能。
在真机考据才气,UnifoLM-VLA-0 在宇树 G1 东谈主形机器东谈主平台上,仅凭单一政策汇集即可高质地完成开闭抽屉、插拔插头、合手取摈弃等12类复杂的操作任务。官方称,即使在外部扰动要求下,模子也推崇出普遍的现实鲁棒性与抗侵扰才气。
当今开云体育,该模子的阵势主页与开源代码已在 GitHub 平台公布,供配置者与假想东谈主员取得。