阿里美团字节小米罕见会师，具身智能35天后进家庭

一、四巨头为何同时押注？

小米战投的消息确认，让自变量的投资人名单再次扩容。

从时间线来看：2024年1月获美团投资，同年获阿里巴巴投资，2025年1月获字节跳动投资，2026年4月获小米战投和红杉中国投资。形成“一轮一个巨头”的独特融资路径。

投资圈有个说法：聪明的钱会流向聪明的团队。四巨头同时下注，背后一定有更深层的逻辑。

自变量CEO王潜将原因归结为“技术的绝对领先性”。在他看来，这些投资方本身具备成熟的大模型研发能力与技术判断力，更关注长期技术壁垒的构建，而非短期回报。

这个解释有其合理性。阿里、字节、美团、小米并不是纯财务投资者，它们本身都在持续投入AI，也在推进机器人、具身智能或相关硬件体系的探索。投资自变量，并不是因为自己看不懂这条路；反而正因为懂模型、懂系统，才更清楚什么样的团队只是在追风口，什么样的团队是在搭建下一阶段竞争真正需要的能力。

王潜同时指出，这个市场足够大，创业公司在软硬件一体化能力上具备大厂难以复制的优势。“技术本身仍然是一个很高的门槛”，他说。

说明WALL-B具身智能基础模型的三大核心能力——多模态感知、物理规律建模、自适应交互，以及统一架构的技术特点

二、WALL-B：重新定义机器人的“大脑”

4月21日的发布会上，自变量CTO王昊发布了新一代具身智能基础模型WALL-B。

这台模型真正特别的地方，是采用了**世界统一模型（World Unified Model，WUM）**的架构。

这听起来很技术，但背后的逻辑其实很直观。

现有的主流方案，如VLA（视觉-语言-动作）架构，就像M1芯片之前的笔记本电脑——视觉模块、语言模块、动作模块各自为政，数据在模块之间来回搬运，每搬运一次就丢失一部分信息。视觉学到的丰富信息，传到动作模块时只剩一个模糊的摘要。

而WUM架构，就像苹果M1芯片的统一内存架构——将视觉、语言、动作、物理预测等能力，放在同一个网络中从零开始联合训练、融为一体，消除模块间的边界和数据搬运损耗。

基于WUM架构，WALL-B展现出三项核心能力：

原生多模态能力：模型从训练初期即对视觉、听觉、语言、触觉、动作等多模态数据进行联合训练，具备一定的“本体感”，能够对自身尺寸及动作范围形成内在感知，用于判断空间通过性及触达能力。

对物理规律的建模能力：模型可对重力、惯性、摩擦力等基本物理因素进行感知与预测。在未见过的场景中，模型可基于上述规律进行推断，例如判断物体可能掉落，并采取相应动作。

交互中的自适应能力：与现有模型在任务失败后停止执行不同，WALL-B在失败后可调整策略再次尝试，并在成功后对结果进行反馈更新。

“得益于这种世界统一模型架构，WALL-B还克服了Transformer架构难以长期记忆内化的问题”，王昊说，“所有经验以原生多模态记忆的方式，通过类似人脑记忆的机制实现自我更新。”

三、为什么不跑马拉松？

在具身智能圈子里，自变量是少数明确表示“不跑马拉松”的公司。

这很有趣。2026年，人形机器人马拉松正成为行业热点。荣耀“闪电”机器人以50分26秒打破人类纪录，宇树科技机器人百米速度接近博尔特……人形机器人正在各个维度向人类发起挑战。

但王潜有不同看法。

“像跑马拉松的机器人，基本都是在’腿’这个硬件能力上做文章，本质上更偏硬件问题”，他说，“舞台上的后空翻、跳街舞、写毛笔字等机器人演示虽然视觉冲击力强，但这些动作本质是预设轨迹的’命令行机器人’。”

在他看来，硬件本身在国内并不构成长期壁垒。“今天做出一个很好的硬件，明天供应链就能跟上，后天大家都可以做一模一样的事情。”

相比之下，自变量所做的具身智能基础模型，“可能和做语言模型的公司更接近一些”。基础模型的壁垒显著更高——数据是关键。

四、真实家庭数据：行业最大的秘密

自变量的数据策略，是理解这家公司的另一个关键。

自变量CTO王昊将行业普遍使用的实验室数据比喻为“糖水数据”——干净、可控但脱离真实；而自变量选择“牛奶数据”，即从真实家庭采集的嘈杂、多变数据。

为了获取这类数据，自变量进入了超过100个真实家庭进行训练。面对散落的拖鞋、快递箱和玩具，面对突然跳上桌的猫，这些都是模型必须学会应对的真实条件。

“斯坦福大学研究显示，人形机器人处理真实家务成功率仅12%”，王潜说，“但这正是技术需要突破的方向。”

这种思路和不少同行并不相同。当很多公司还在围绕场景闭环、交付效率和商业回报做权衡时，自变量更像是在优先押注一条通向通用智能的路线。

五、35天后：机器人进家庭倒计时

4月21日的发布会上，王潜给出了明确时间表：5月25日，搭载WALL-B模型、并针对家居环境完成硬件升级的新一代机器人，将正式入驻首批用户家庭。

公司已启动招募首批“家长”，用户可通过官方渠道提交申请，将基于实际需求和技术能力筛选参与者。

机器人定位为覆盖长尾任务的“家庭助手”，理论上能完成所有物理上可实现的家务，如摆鞋子、叠衣服、铲猫砂。但复杂工具或狭窄空间可能受限。

王潜坦言，当前模型仍处于“实习生”阶段，会犯错需要远程协助，但机器人能够24小时不间断工作，且每工作一天都会因新数据的产生而变得更“聪明”。

针对用户最敏感的隐私问题，王潜提出了三重保障：视觉脱敏（设备端对原始图像实时打码）、透明授权（用户需主动按下同意键开机）、用途限定（数据不共享第三方）。

六、行业影响：为什么是家庭？

在行业普遍优先布局工业场景时，自变量选择了最复杂的家庭场景。

王潜解释：“工业和家庭是两类极端相反的场景。家庭是极致的开放场景，对泛化性要求极致；工业是封闭、固定的，对速度、准确率要求高。”

他认为，家庭场景是打磨基座模型的“磨刀石”，工业落地是自然结果——如果模型能应对家庭，再向工业迁移便是降维打击。

某种程度上，这或许是自变量最鲜明的标签：当很多具身智能公司更关心机器人先在哪些场景里跑通商业化时，自变量更想寻找哪条路径能够通往AGI。

写在最后

四巨头同时下注，押的已经不只是自变量今天能做出什么样的机器人，也不只是它眼下能落地多少场景，而是它是否有机会沿着一条更长期的路线，率先把基础模型、真实世界数据和机器人本体真正打通。

35天后，首批真实家庭将迎来这位特殊的“新成员”。中国家庭服务机器人的时代，或许正从这一刻悄然开启。

而对于整个具身智能行业来说，自变量的选择提供了一个不同的视角：究竟是先商业化，还是先建能力？这个问题没有标准答案。但自变量用自己的融资和行动，证明了“长期主义”也能拿到钱。

一、四巨头为何同时押注？

二、WALL-B：重新定义机器人的“大脑”

三、为什么不跑马拉松？

四、真实家庭数据：行业最大的秘密

五、35天后：机器人进家庭倒计时

六、行业影响：为什么是家庭？

写在最后

评论

发表回复 取消回复

更多文章

欧易最新安全升级措施会如何影响用户资产保护

SpaceX星舰V3今日首飞：人类最强火箭的五大技术飞跃

比特币突破关键阻力位后市场情绪发生了什么变化

币安生态基金为何频繁投资AI区块链项目？2026年深度解析

发表回复取消回复