阿里美团字节小米罕见会师,具身智能35天后进家庭

展示自变量机器人获得20亿融资、四巨头投资并即将进入家庭的核心信息,突出科技与生活融合的品牌定位

一、四巨头为何同时押注?

小米战投的消息确认,让自变量的投资人名单再次扩容。

从时间线来看:2024年1月获美团投资,同年获阿里巴巴投资,2025年1月获字节跳动投资,2026年4月获小米战投和红杉中国投资。形成“一轮一个巨头”的独特融资路径。

投资圈有个说法:聪明的钱会流向聪明的团队。四巨头同时下注,背后一定有更深层的逻辑。

自变量CEO王潜将原因归结为“技术的绝对领先性”。在他看来,这些投资方本身具备成熟的大模型研发能力与技术判断力,更关注长期技术壁垒的构建,而非短期回报。

这个解释有其合理性。阿里、字节、美团、小米并不是纯财务投资者,它们本身都在持续投入AI,也在推进机器人、具身智能或相关硬件体系的探索。投资自变量,并不是因为自己看不懂这条路;反而正因为懂模型、懂系统,才更清楚什么样的团队只是在追风口,什么样的团队是在搭建下一阶段竞争真正需要的能力。

王潜同时指出,这个市场足够大,创业公司在软硬件一体化能力上具备大厂难以复制的优势。“技术本身仍然是一个很高的门槛”,他说。

说明WALL-B具身智能基础模型的三大核心能力——多模态感知、物理规律建模、自适应交互,以及统一架构的技术特点

二、WALL-B:重新定义机器人的“大脑”

4月21日的发布会上,自变量CTO王昊发布了新一代具身智能基础模型WALL-B。

这台模型真正特别的地方,是采用了**世界统一模型(World Unified Model,WUM)**的架构。

这听起来很技术,但背后的逻辑其实很直观。

现有的主流方案,如VLA(视觉-语言-动作)架构,就像M1芯片之前的笔记本电脑——视觉模块、语言模块、动作模块各自为政,数据在模块之间来回搬运,每搬运一次就丢失一部分信息。视觉学到的丰富信息,传到动作模块时只剩一个模糊的摘要。

而WUM架构,就像苹果M1芯片的统一内存架构——将视觉、语言、动作、物理预测等能力,放在同一个网络中从零开始联合训练、融为一体,消除模块间的边界和数据搬运损耗。

基于WUM架构,WALL-B展现出三项核心能力:

原生多模态能力:模型从训练初期即对视觉、听觉、语言、触觉、动作等多模态数据进行联合训练,具备一定的“本体感”,能够对自身尺寸及动作范围形成内在感知,用于判断空间通过性及触达能力。

对物理规律的建模能力:模型可对重力、惯性、摩擦力等基本物理因素进行感知与预测。在未见过的场景中,模型可基于上述规律进行推断,例如判断物体可能掉落,并采取相应动作。

交互中的自适应能力:与现有模型在任务失败后停止执行不同,WALL-B在失败后可调整策略再次尝试,并在成功后对结果进行反馈更新。

“得益于这种世界统一模型架构,WALL-B还克服了Transformer架构难以长期记忆内化的问题”,王昊说,“所有经验以原生多模态记忆的方式,通过类似人脑记忆的机制实现自我更新。”

三、为什么不跑马拉松?

在具身智能圈子里,自变量是少数明确表示“不跑马拉松”的公司。

这很有趣。2026年,人形机器人马拉松正成为行业热点。荣耀“闪电”机器人以50分26秒打破人类纪录,宇树科技机器人百米速度接近博尔特……人形机器人正在各个维度向人类发起挑战。

但王潜有不同看法。

“像跑马拉松的机器人,基本都是在’腿’这个硬件能力上做文章,本质上更偏硬件问题”,他说,“舞台上的后空翻、跳街舞、写毛笔字等机器人演示虽然视觉冲击力强,但这些动作本质是预设轨迹的’命令行机器人’。”

在他看来,硬件本身在国内并不构成长期壁垒。“今天做出一个很好的硬件,明天供应链就能跟上,后天大家都可以做一模一样的事情。”

相比之下,自变量所做的具身智能基础模型,“可能和做语言模型的公司更接近一些”。基础模型的壁垒显著更高——数据是关键。

四、真实家庭数据:行业最大的秘密

自变量的数据策略,是理解这家公司的另一个关键。

自变量CTO王昊将行业普遍使用的实验室数据比喻为“糖水数据”——干净、可控但脱离真实;而自变量选择“牛奶数据”,即从真实家庭采集的嘈杂、多变数据。

为了获取这类数据,自变量进入了超过100个真实家庭进行训练。面对散落的拖鞋、快递箱和玩具,面对突然跳上桌的猫,这些都是模型必须学会应对的真实条件。

“斯坦福大学研究显示,人形机器人处理真实家务成功率仅12%”,王潜说,“但这正是技术需要突破的方向。”

这种思路和不少同行并不相同。当很多公司还在围绕场景闭环、交付效率和商业回报做权衡时,自变量更像是在优先押注一条通向通用智能的路线。

五、35天后:机器人进家庭倒计时

4月21日的发布会上,王潜给出了明确时间表:5月25日,搭载WALL-B模型、并针对家居环境完成硬件升级的新一代机器人,将正式入驻首批用户家庭。

公司已启动招募首批“家长”,用户可通过官方渠道提交申请,将基于实际需求和技术能力筛选参与者。

机器人定位为覆盖长尾任务的“家庭助手”,理论上能完成所有物理上可实现的家务,如摆鞋子、叠衣服、铲猫砂。但复杂工具或狭窄空间可能受限。

王潜坦言,当前模型仍处于“实习生”阶段,会犯错需要远程协助,但机器人能够24小时不间断工作,且每工作一天都会因新数据的产生而变得更“聪明”。

针对用户最敏感的隐私问题,王潜提出了三重保障:视觉脱敏(设备端对原始图像实时打码)、透明授权(用户需主动按下同意键开机)、用途限定(数据不共享第三方)。

六、行业影响:为什么是家庭?

在行业普遍优先布局工业场景时,自变量选择了最复杂的家庭场景。

王潜解释:“工业和家庭是两类极端相反的场景。家庭是极致的开放场景,对泛化性要求极致;工业是封闭、固定的,对速度、准确率要求高。”

他认为,家庭场景是打磨基座模型的“磨刀石”,工业落地是自然结果——如果模型能应对家庭,再向工业迁移便是降维打击。

某种程度上,这或许是自变量最鲜明的标签:当很多具身智能公司更关心机器人先在哪些场景里跑通商业化时,自变量更想寻找哪条路径能够通往AGI。

写在最后

四巨头同时下注,押的已经不只是自变量今天能做出什么样的机器人,也不只是它眼下能落地多少场景,而是它是否有机会沿着一条更长期的路线,率先把基础模型、真实世界数据和机器人本体真正打通。

35天后,首批真实家庭将迎来这位特殊的“新成员”。中国家庭服务机器人的时代,或许正从这一刻悄然开启。

而对于整个具身智能行业来说,自变量的选择提供了一个不同的视角:究竟是先商业化,还是先建能力?这个问题没有标准答案。但自变量用自己的融资和行动,证明了“长期主义”也能拿到钱。

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注