Introduction:具身智能领域政策频出、融资火热,但落地仍需突 破“感知-规划-控制-执行”闭环算法及数据匮乏等技术挑战
2023 年中至今,具身智能赛道在政策和资本双助力下“百花齐放”。当前已形成两个国家级和五个省级人形机器人/具身智能创新中心,支持行业发展。与政策和投资端的火热形成对照,当前(通用)具身智能商业化落地中仍存在众多待解决问题。
如将通用具身智能的技术栈按照“大脑-小脑-本体”(虽然这种说法常被学界 critic,但考虑文章受众仍采用此种划分方法便于理解)进行拆分,各环节仍面临着众多技术挑战。相较于多数报告中已经数次提到的“泛化性”、“模型幻觉”、“缺乏常识”问题,我们特别关注各环节性能上限,如期待通过 5~10Hz 频率的“大脑”驱动 ~1000Hz 的机器人本体的所有运动本身是不切实际的,相应地期待在现有技术能力下实现通用具身智能对于技术选型,理解各类模型/算法需要解决各种特定问题是现阶段具身智能产业化的关键。
其中,本体的技术相对成熟,但随着灵巧手等高自由度的零部件逐步集成,机器人本体自由度相较于以往复合形态机器人显著增加,对于高速通信及算力提出更高要求,但多数是成本问题。小脑次之,manipulation 领域模仿学习方法虽然被更广泛采用,diffusion policy 的快速渗透初步看到 learning 派成为主流的先行信号;locomotion 则处于传统运控算法向强化学习逐步过渡的阶段,我们认为其开始进入通过大量数据收集就能解决的工程问题阶段;大脑则仍处于“实验室”研发阶段,在模型的数据、训练方法、语言模型固有缺 陷、推理优化等维度均存在待解决的科研问题。
市场是否需要新代际的产品?
现有方案不泛化、重交付,单一形态与单一场景机器人市场空间均相对有限,价值链各环节毛利率水平普遍较低,本体的标准化&性能的通用性决定未来价值链的迁移
- 机械臂渗透环节有限,市场相对独立使得市场规模有限:工业侧大量工艺((弧焊/ 喷漆/ 贴标等)无法渗透,复杂工艺/ 通用工具需依赖灵巧手),在众多细分场景中应用机械臂的 ROI 较低;单一形态机器人全球市场规模仅 600 亿 RMB,尤其是工业场景,各地区的渠道不能复用,客户行业分布也差异较大,进出口规则也相对复杂,具体到特定市场的空间更为有限
- 以服务机器人为例,单一场景机器人利润空间吸引力不足:以往单一场景最大的机器人是物流机器人,其全球市场规模 360 亿元 RMB,相较于单一形态机器人市场空间更小。此外,商业非标场景需定制化开发部署,传统方案通过算法优化与落地后形成标准化交付应用算法模块降低部署成本,但15%客户数量积累后项目交付人天数边际优化空间递减,利润水平更为有限
供给侧是否存在终极形态的产品?
相较于终极的产品形态,具身智能发展的核心驱动因素是智能化,深度感知、智能决策、泛化交互、灵巧执行是充分条件,人形的形态不充分
-** 智能化的充分条件是数据和算法驱动的深度感知、智能决策、泛化交互、灵巧执行**:具身智能是物理硬件成本降低与传感器精度提升的积累,与数据积累带来的算力性能提升的交集,富集数据带来的能力涌现-智能化是本轮的核心竞争要素。与自动驾驶类似(甚至自动驾驶也是具身智能的子集),具身智能的充分条件是具有深度感知、智能决策、泛化交互、灵巧执行
- 通用性是必要条件,但是人形形态不充分:跨赛道方案的迭代边际改善价值主张在需求侧更明确;运控层缺标准化,感知规划、决策、交付部署环节缺泛化性,供给侧通用性改善利润空间;从需求侧出发,生产效率、准确性/一致性、复杂环境的适应性、人机交互效率是必要条件,但具身智能人形的形态不充分
技术路径上,当前并未技术理论最优解,各环节技术选型尚未收敛,多模式混合是当前主流
- 感知规划层架构选择并未收敛各有优劣:虽然端到端的方案被认为是未来,但其数据量级的需求和可见时间内的泛化性都是这种架构成为主流的阻碍;此前,以 RT-1/RT-2 为代表的工作让 FM for planning+skill apis 成为众多明星创业公司的技术选型,但其距离可用仍有众多阻碍
- 大厂和明星创业公司的技术选型也相对分散,并无某一架构有显著优势:Tesla 是四大家中最擅长做成熟技术产品整合的公司,其技术路径的选择被众多创业公司视作更适合产业化的选型;创业公司想要破局,其核心壁垒在于持续从物理世界获取数据并且高效使用的能力
- 数据来源和获取方式角度看,混合使用是主流:运控模仿学习训练方式多样,数据来源则可大致分为三类,第一条路径是在仿真环境中收集数据,第二条路径是在现实世界中机器人自己收集数据,第三条路径是人遥控机器人或者手动收集数据,每个类别无法兼顾训练精度与数据规模,且仿真与真机数据采集中存在众多隐形成本(如仿真环境的构建耗时等),头部厂商采用多模式混合训练。不同类型的数据性价比差异大,manipulation 中各类数据的采集及利用方法尚未收敛,locomotion 中大规模仿真+RL 的思路有较高共识
Predictions
- 产品形态上,短期轮式在成本端有显著优势,但以 10 年维度看优势逐步被拉平或反超
- 从以往机器人行业下游客户访谈经验看,其特点是非标应用场景多、产品需大量二次开发,相应地客户选择供应商的标准与逻辑也各异(如操作稳定性、连续工作时长、研发配合度等),但近乎所有客户均严格考察采购机器人后的回本周期是否能限制在 2 年内。以此为标准,我们将现有 2 类主流复合机器人形态产品 BOM 从零部件及量产客观规律维度进行推算得到 2029 年轮式机器 人率先将回本周期控制在 2 年内,但由于其零部件相对更为成熟,长线看相较于人形后期降本速度降低,也因此我们看好场景适应能力更强、功能复杂度更高的人形机器人在长期的竞争力
- 企业从中短期可落地的工业/商业服务场景出发逐步构建“数据飞轮”,我们看好在认知学习、交互协同、环境感知有望构建壁垒的企业
- 类比自动驾驶行业场景落地,相较于从 day1 开始且仅进行 L5 场景场景的开发和适配,找到具身智能行业的 L2(如自动泊车)构建数据飞轮并形成“杀手级”应用的公司最有望实现渐进发展的技术商业化成功。因此,我们认可具身智能公司早期从任务简单/数据需求低的工业零散工序/简单服务场景落地,中期逐步渗透至工业流水线工序/商业服务复杂任务及特种作业场景,并在长期伴随泛化能力成熟,在环境/任务最复杂的家庭场景全面应用。同时,我们也应保持警惕,在技术实现突破前,可见的技术选项多数不适配解决“稳定高效”类功能,因而我们更看好能在认知学习、交互协同、环境感知维度构建壁垒的公司
- 市场中主要有三类基因的团队,能力维度更有优劣,我们期待更多产业侧背景团队为市场注入活力
- 当前市场以传统硬件/运动控制背景团队、CV/自动驾驶背景团队、大模型/强化学习背景团队为主,各类团队在软件、硬件、商业化维度的能力各有优劣。多数缺乏产品定义与商业化经验的团队仍在以科研的思路进行技术与产品的研发布局,因而市场上充斥着同质化严重,进展“半斤八两”的机器人产品,但此类产品在从企业研发阶段向量产阶段转化时存在众多需要攻克的供应链与销售渠道问题,我们看好中短期硬件背景团队通过补齐智能化能力在此维度抢占先机。另一类公司则讲着“通用”的故事,做着专用的产品,这类公司我们多数认为并非最有胜率的团队,因而也期待更多产业背景的顶尖机器人“产品经理”为行业带来新活力