具身智能是未来实现通用人工智能的关键路径。当AI走出虚拟世界,拥有“身体”与物理交互能力——具身智能正掀起人工智能的第二次革命浪潮。谁能掌握人工智能、具身智能的核心技术与产业生态,谁就可能主导未来全球经济格局。
2025年,“具身智能”首次被写入中国政府工作报告,成为培育未来产业的核心任务。国内外科技巨头英伟达、OpenAI、腾讯、阿里、华为等竞相布局,特斯拉、Figure AI、智元机器人、宇树科技等厂商的人形机器人产品密集落地,宣告“AI具身化”时代正式启幕。
一、具身智能概述 (一)具身智能概念 具身智能(Embodied Intelligence)是一种融合了人工智能、机器人技术等多学科的前沿科技领域,是人工智能的下一个浪潮。根据中国计算机学会(CCF)的定义,具身智能是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。此前,人工智能主要以数字形式存在,缺乏视觉、触觉、听觉等感官体验,难以有效应对现实世界的各种情况。简单来说,具身智能就是给AI装上一个“身体”(比如机器人),让它不再只是生活在计算机里、处理数据和文字。它通过这个“身体”上的传感器(眼睛、耳朵等)去感知真实世界,然后像人类一样去理解周围的情况,做出决策,并驱动“身体”去行动、完成任务。具身智能让AI真正走进现实,能应对各种实际场景,被看作是通往更通用、更强大的人工智能(AGI)的关键一步。2024年被称为具身智能的“元年”,英伟达首席执行官黄仁勋断言人工智能的下一波浪潮是具身智能。 具身智能可拆分为“具身”+“智能”,机器人是具身智能的主要应用场景。“具身”是指具有身体且可通过交互、感知、行动等能力来执行任务,按使用用途和场景的不同,具身智能可以有多种形态,包括各类智能机器人、自动驾驶等。机器人是具身智能的主要应用场景,其中人形机器人被认为是具身智能最理想的形态。“智能”是指物理实体可主动进行感知、理解、推理、决策、行动等任务。因此,可以通俗的将具身智能理解为就是将AI植入到各种物理身体(如机器人)上,让机器人等物体可以对周围环境变化做出感知,并且做出相应决策。与传统的工业机器人、协作机器人相比,具身智能更强调在环境中的交互能力,相较传统机器人,具身智能机器人有着智能化程度高、工作场景限制小、能够自主规划复杂工作的特点。总结起来,具身智能体必须同时具备三个核心要素:一个看得见摸得着的“身体”(本体),能与周围环境互动交流的能力(环境交互),以及能感知、思考、做决策的“大脑”(智能)。
图1 具身智能的“三要素”概念示意图
资料来源:中国信通院。 (二)具身智能技术原理与路线 1、技术原理 具身智能本质上是为以机器人为代表的物理实体注入人工智能,使其能感知、学习并与环境动态交互。具身智能技术的发展经历从早期模块化AI算法集成向大模型驱动的统一技术框架的转变。早期,依靠集成多个“小模型”并辅以人工介入,依据场景或用途调用模型来完成任务,例如视觉层面借助目标检测算法识别物体,控制层面运用传统机器人学习技术让机器人自主决策,以此满足机器人应用需求,增添智能化元素。而大模型问世后,具身智能将各模块功能整合进统一框架,借助大模型的知识理解与表达能力,实现自然语言交互、多模态信息无感处理与转换,可统一处理多种感官信息,融合运动经验执行操作,在通用性与泛化性方面实现了重大突破。
图2 具身智能本体-小脑-大脑技术体系
资料来源:智元机器人。
具身智能技术体系通常可划分为“感知—决策—行动—反馈”四个核心功能模块,四者构成一个动态闭环系统。该系统通过与环境的持续交互,实现环境模型的构建与更新、自主决策制定、自适应行为执行,并基于经验反馈实现学习与进化。 ——感知模块。基于多模态传感器融合(视觉、听觉、触觉、力觉、本体觉等)采集环境信息,利用深度学习模型实现跨模态融合与联合表征,构建对环境的时空-语义统一认知。视觉负责目标检测、场景理解与行为预测;听觉支持语音指令解析与声源定位;触觉与力觉反馈用于抓取控制、材质识别与交互安全。感知结果不仅提供状态输入,也为决策模块提供可解释的语义与几何信息。 ——决策模块。作为具身智能的“认知中枢”,负责解析感知信息并生成高层任务规划与低层动作策略。当前主流路径正从传统规则引擎与符号规划,转向基于大模型的数据驱动决策。系统综合任务目标、环境约束与历史经验,通过分层决策架构输出可执行策略,并结合强化学习或模型预测控制实现实时动态调整。 ——行动模块。将决策转化为物理操作,涵盖移动导航与抓取操作。移动系统依赖路径规划与运动控制实现避障与位姿调整;操作系统通过轨迹规划与柔顺控制实现精准交互。系统结合视觉伺服、力觉反馈等进行闭环调节,确保动作精准、安全、稳定。 ——反馈模块。通过闭环学习驱动系统进化。采集动作效果、环境响应等数据,利用强化学习、模仿学习或在线微调技术优化策略参数、更新模型权重。支持经验回放、技能抽象与迁移,实现持续自适应迭代,提升任务执行的鲁棒性与通用性。 2、技术路线 具身智能的技术路线主要涵盖算法方案、训练方法以及数据采集三个方面,具体如下。 具身智能的算法方案可分为分层决策模型和端到端模型两种路线。目前分层决策模型更受青睐,但业界普遍认为,从长远看,随着数据积累和算法进步,端到端模型是未来实现更高水平通用智能(AGI)的重要方向。 分层决策模型:被业界形象地称为“大脑-小脑”架构。以Figure 01(与OpenAI合作)为代表,将任务划分为不同层级,运用多个神经网络分别训练,再通过流程管线组合。顶层通常是一个大型多模态模型,负责高级认知、任务规划和语言理解,扮演“大脑”角色;中间层是更专注的策略网络,负责将高层指令转化为具体的运动序列并生成动作指令,如同“小脑”;底层机器人本体接收指令执行具体的电机控制。分层模型的优势在于各模块功能明确,可解释性、可维护性和调试性相对较好。然而,传统模块化架构存在信息传递延迟、模块间耦合问题和算法迭代不同步的缺陷,是分层模型需要着力解决的问题。 端到端模型:旨在用一个统一的神经网络直接从原始传感器输入(如摄像头图像)映射到最终的输出(如驾驶轨迹或机器人动作),省去了中间独立的感知、决策、规划模块,实现一体化决策。以谷歌的RT-2为代表,借助一个神经网络实现从任务目标输入到行为指令输出的全过程。先在大规模互联网数据上预训练视觉语言模型,而后在机器人任务上微调,结合机器人动作数据,推出VLA(视觉-语言-动作)模型。端到端模型的优势在于简化系统架构,提高运行效率,并能减少模块间误差积累,但依赖海量高质量数据进行VLM大模型预训练,计算资源消耗巨大,且机器人执行实时性通常欠佳。 具身智能的训练方法可分为模仿学习和强化学习两种路线。在实际的研发中,纯粹的模仿学习或强化学习都难以独立支撑复杂的具身智能任务。目前的主流趋势是将两者结合,取长补短,形成更高效的训练范式。 模仿学习:智能体通过观察和模仿专家(如经验丰富的人类操作者或高性能系统)的行为来学习任务。其优势在于能快速学习专家策略,无需复杂探索;劣势是学习到的行为策略受限于专家数据,对未见过的情况泛化能力弱。 强化学习:智能体与环境交互,以最大化某种累积奖励的方式学习最佳行为策略。优点是可通过探索环境学习未知策略,能处理高度不确定和动态变化的环境;缺点是需要大量探索和试错,学习过程缓慢,且对于复杂任务,设计合适的奖励函数难度较高。 具身智能的数据采集可分为基于仿真环境数据和基于真实世界数据两种路线。目前业界逐渐形成共识,采用 “仿真数据为主,真实数据为辅” 的训练模式。 基于仿真环境的数据采集(Sim2Real):在仿真环境中学习技能和策略,再迁移到现实世界。优势是数据可大规模获取,成本低;劣势是对仿真器要求高,仿真环境与真实世界有差异,迁移过程中性能会下降。 基于真实世界数据采集:直接从现实世界数据中学习,包括本体采集、遥操作(人远程控制机器人执行任务)、动态捕捉、视频学习等方式。优点是数据更真实可靠;缺点是数据少、泛化性差,通过机器本体和人采集,成本高、难度大、效率低。 (三)具身智能发展历程 具身智能产业历经概念萌芽、理论发展、技术突破等发展阶段,现正逐步走向产业应用。 概念萌芽(1950S-1990S):1950年图灵探讨机器能否思考,提出人工智能两条发展路径,后逐渐形成离身智能和具身智能。1956年AI概念诞生,符号主义主导早期AI发展,连接主义随后兴起,但两者在处理复杂任务时局限性显现。1980年代行为主义AI发展,主张通过身体与环境交互产生智能。这一时期“具身”机器人进行早期实验,如1954年麻省理工学院生产首台可编程机械臂,1960年首台工业机器人Unimate投入使用,开启具身智能探索。 理论发展(1990S-2022):AI三大学派从分立研究走向综合,为具身智能发展奠定基础。行为主义反思计算智能局限,推动以“底层智能”为基础的研究。底层数学理论的深耕使AI算法取得突破,深度强化学习、模仿学习、形态计算等理论及算法模型快速发展。“具身”机器人快速发展,如1999年日本索尼推出犬型机器人爱宝,2002年丹麦iRobot公司推出家用扫地机器人Roomba,2009 年后波士顿动力Atlas,2013年后无人机/无人驾驶快速发展,均属该阶段代表产品。 技术突破(2022-至今):2022年底ChatGPT引爆大模型浪潮,为具身智能带来巨大潜力。大模型提升机器人语言交互、环境感知和任务决策等能力,如2023年的VoxPoser模型利用ChatGPT分解任务步骤,PaLM-E将传感器模态融入大语言模型,显著增强机器人高层推理与指令泛化能力。2024年起人形机器人集中落地,特斯拉、Figure AI、优必选、宇树科技、智元机器人等国内外重点企业推出人形机器人产品,并进入汽车工厂、巡检、物流等场景进行实测,标志着“大模型+本体”开始从实验室走向产线,其他形态本体也显现智能升级趋势。 如今,具身智能作为人工智能的重要分支,在多领域展现潜力,正逐步走向产业应用,受到科技界和产业界的广泛关注,微软、谷歌、英伟达等科技巨头以及高等学府开展相关研究。2024年,具身智能作为人工智能发展的一个重要分支,成为科技界的新风向标,人形机器人等具身智能产品开始成为明星产品,受到市场追捧,产业应用进程加快。 二、具身智能应用领域 具身智能从根本上拓展了人工智能的应用边界。在当今科技驱动产业变革的时代背景下,具身智能有望广泛渗透至工业制造、自动驾驶、物流运输、家庭服务、医疗康养等多个关键领域,支撑各行业的智能化转型。 ——工业制造领域。具身智能为工业制造业智能化升级提供支持,使机器人从“能动”转变为“能干活”。在实际生产中,具身智能变革人机协作模式,打破人机交互的语义隔离。人类能以自然方式与机器人沟通,机器可理解人类意图并提前做出安全控制动作。同时,具身智能工业机器人可替代人类成为柔性执行机构,实现智能化柔性制造,自动更新决策和优化行动,降低人工干预程度,提高生产效率和制造精度。 ——自动驾驶领域。具身智能通过融合感知、决策和执行功能,提升自动驾驶系统性能,实现安全可靠驾驶。无人驾驶出租车属于典型的具身智能应用之一,通过多模态传感器(激光雷达、毫米波雷达、摄像头等)收集数据,完成环境感知,用自研大模型/强化学习做任务决策,再把决策转化为转向、制动、加速等物理动作,形成完整的“感知-决策-行动-反馈”闭环。目前全球无人驾驶出租车Robotaxi业务以美国的特斯拉、谷歌旗下的Waymo和国内百度的“萝卜快跑”为代表,截止2025年5月“萝卜快跑”已在15城完成1100万单公开出行,其他国内企业如小马智行、滴滴、T3出行、曹操出行、享道等平台也正在推进。 ——物流运输领域。当前具身智能在物流运输领域的应用已从技术验证阶段迈入规模化落地初期,形成了以仓储为核心、向装卸与末端配送延伸的应用格局,电商物流龙头企业加快试点推广。例如,亚马逊测试的Digit人形双足机器人,可完成卸载货车、搬运箱子等多项任务。京东物流近期推出“超脑大模型2.0”与“异狼具身智能机械臂系统”,推动大模型与“狼族”智能设备互联,构建多机协同的智能物流系统。在仓储、分拣与装卸领域,AMR物流机器人头部企业(如极智嘉、海康机器人、快仓、国自、立镖等)加快其产品向泛化智能升级,对整机的感知-决策-执行链路做彻底重构,依托多模态感知、端侧小模型+云端大模型支持自主生成路径与任务序列。仓储AMR与人形机器人混编应用也正在推进,智元机器人等人形机器人头部企业加速开发智能物流应用解决方案。 ——家庭服务领域。具身智能有望推动家庭服务机器人朝着全场景智能助手方向发展,逐步实现定制化服务能力的升级。从基础扫地机器人到多功能机器人,再到未来具备通用交互能力的具身智能机器人,其功能边界持续拓展,场景适配性显著提升。如1X Technologies(获得OpenAI战略投资)推出的EVE人形轮式机器人,融合OpenAI的AI模型,通过VLA(视觉-语言-动作模型)、多模态感知提升自然语言理解和自主任务执行能力,适用于护理老人、家庭保姆、仓储物流等领域。一些机器人已能模拟人类执行多种家务,如谷歌和斯坦福联合推出的Mobile ALOHA2已展示备菜、翻炒、出锅、洗衣、浇花等20余种家务操作能力;星尘智能的Astribot S1可执行叠衣服、物品分类、烹饪、吸尘、叠杯子等活动。此外,像日本的LOVOT机器人主打情感陪伴功能,满足人类情感需求。 ——医疗康养领域:具身智能成为应对老龄化挑战、提高医疗服务质量的关键技术,应用于医疗诊断、手术操作与介入、专科辅助诊疗、康复训练、功能代偿辅助、医疗护理、情感陪伴等多个场景。在诊断环节,通过实体设备的多模态数据采集能力,为AI模型提供动态、全面的临床数据,再结合AI对医学影像的智能分析辅助医生准确诊断;在手术环节,目前达芬奇等手术机器人可辅助医生进行远程手术,可凭借毫米级操作精度与术中动态避障能力,实现微创化手术操作;在康复领域,智能康复设备通过肌电感知、视觉追踪等技术捕捉患者运动状态,可个性化调整物理治疗方案。
表1 具身智能主要应用领域应用及代表产品
资料来源:海康机器人官网,机器之心,极客公园等,深企投产业研究院整理。
三、具身智能商业化路径 数据是具身智能发展的核心,数据驱动产业发展。在2022 年以前的小模型时代,算法的数量和质量对于机器人重要性更强,因为模型性能会随着训练次数的增加而趋于饱和,甚至出现过拟合的情况,需要通过算法调整找到最佳配置以规避性能下降。但进入大模型时代后,Scaling Law(缩放定律)明确显示,增加数据量可驱动模型性能持续提升,数据的核心地位彻底凸显。 具身智能获取数据的关键在于实现商业化落地。区别于大模型可以从网络中获取数据并进行训练,具身智能如果想要具备高泛化性和可靠性,底层模型的训练还需依赖物理世界的精确数据,而这类数据存在获取难、成本高、标注难的特点,也使得其产业进程远慢于语言模型。获取真实物理世界的数据的关键就在于商业化落地,具身智能企业普遍把“先把机器人卖出去/用起来”当成破局手段,只有商业化落地,才能形成“卖设备→现场运行→自动回传→模型迭代→性能提升→再卖设备”的数据闭环。 根据1X副总裁Eric Jang《All Roads Lead to Robotics》一文,目前具身智能的商业化路径主要包括三种:通用场景软硬结合、软件路径,以及垂直领域软硬结合。
表2 具身智能商业化厂商对比
资料来源:海康机器人官网,机器之心,极客公园等,深企投产业研究院整理。
——通用场景软硬结合 通用路线技术颇具挑战性,其商业模式为向B端或C端出售具备智能功能的完整机器人。此通用技术路径的关键在于运用通用的软硬件来应对多样且变化的使用场景,为此,一方面需开发可重构的硬件,以实现快速调整以适配不同任务需求;另一方面要设计能适配不同硬件配置与外围设备的通用软件,保障其在各类硬件上顺畅运行,1X、Figure以及特斯拉皆采用此路径。 ——软件路径 软件路径可助力机器人快速部署与迭代,其主流商业模式为向硬件厂商或综合型厂商开放API接口。该路径的关键在于研发Cross-Embodiment Foundation Model(跨实体基础模型,简称CEF),通过这一模型实现跨硬件平台的无缝兼容——机器人硬件厂商只需接入所提供的API接口,即可为设备搭载标准化的机器人“大脑”。这一模式能彻底打破传统机器人开发的局限:过去各硬件平台需单独搭建软件开发流程,而如今开发者编写一次代码,便可在多种硬件上部署运行。无论是精密的人形机器人、高效的轮式机器人,还是灵活的无人机,均能共享同一套软件架构,不仅大幅节省开发时间与成本投入,还能随着机器人大规模部署,使软件的边际成本逐步趋近于0。 ——垂直领域软硬结合 在垂直领域,软硬一体可把采集、压缩、加密、预处理全部写进 ASIC 或 FPGA芯片,数据只在片内流转,外部 API 读不到原始信号,有助于积累细分数据方面的竞争壁垒。高工机器人产业研究所(GGII)所长卢瀚宸在2024中国人形机器人技术应用峰会上强调,从长远来看,具备高壁垒的核心硬件将极具优势。在机器人领域,硬件与数据存在天然的强绑定关系,企业可通过定制化处理器、专属通信接口等核心硬件,精准收集并处理对机器人性能起决定性作用的特定数据,这类数据因与硬件深度适配,往往难以被竞争对手复制。同时,硬件与软件的紧密集成能形成高度优化的协同系统,既提升数据采集的实时性与精准度,又加快数据处理效率,进一步强化数据壁垒的不可替代性。 四、具身智能市场概况 具身智能市场规模不断扩大,中国占比将持续提升。随着核心技术的持续突破与产业链协同能力的增强,中国及全球具身智能市场正步入高速增长轨道。根据第二届中国人形机器人与具身智能产业大会发布的《2025人形机器人与具身智能产业研究报告》显示,2025年全球具身智能市场规模预计达195.25亿元,至2030年预计将攀升至2326.3亿元,期间复合年增长率(CAGR)高达64.18%。其中,中国市场的表现尤为突出,2025年规模预计达52.95亿元,占全球总体规模的27%,到2030年,中国具身智能市场规模将达到1037.52亿元,约占全球44.6%。根据国务院发展研究中心发布的《中国发展报告2025》显示,当前中国具身智能产业发展处于起步期,在具身智能大模型研发和产品制造方面具有较好基础,市场规模有望在2030年达到4000亿元,在2035年突破万亿元。
图3 中国及全球具身智能行业市场规模预测(亿元)
资料来源:《2025人形机器人与具身智能产业研究报告》。
人形机器人已成为具身智能技术商业化落地的核心载体,但对其市场规模的预测分歧较大。人形机器人还处于产业化初期,技术突破节奏与商业化进程存在不确定性。市场规模由产品技术进步速度、大规模商业化进程、下游应用渗透率决定,各个机构对技术成熟度、量产降本速度及场景落地的判断有分歧。短期内,各机构对2030年前的市场空间预测分布在数十亿至千亿美元区间,最新以2030年达到百亿美元量级的预测为主流。 据中国信通院2024年底预测,中国人形机器人市场规模将从2024年的27.6亿元爆发式增长至2029年的750亿元,2035年有望突破3000亿元,年复合增长率超90%。 2025年3月,英伟达发布Isaac GR00T N1通用人形机器人基础模型,有望大幅优化机器人AI训练,在此前提下,国内研究机构集邦咨询预测2028年全球人形机器人市场产值接近40亿美元。 高盛在2025年2月的报告指出,由于技术瓶颈(如感知、决策与控制执行的智能化水平)尚未突破,预计2027年全球出货量仅7.6万台,2032年达到50.2万台,显著慢于市场预期;对应100万台里程碑,高盛认为最快需到2028-2029年(最乐观情景)才能实现,而基本情境下则需等到2034-2035年。 摩根士丹利在2025年6月的报告预测,2025年中国人形机器人市场规模3亿美元,2030年将增至34亿美元,年复合增长率63%,预计到2030年,中国将拥有25.2万台人形机器人,到2050年将增加到3.02亿台,占世界人形机器人总数的30%。 五、具身智能产业链格局 (一)产业链概况 具身智能产业融合了先进技术、复杂系统集成和多元化应用场景,将推动人类社会进一步迈向智能化新时代。其产业链结构可划分为上游、中游、下游三个部分。
图4 具身智能产业链图谱
资料来源:深企投产业研究院整理。
1、产业链上游:硬件基础支撑 产业链上游是具身智能产业的核心硬件层,涵盖芯片、传感器、控制器、电机(含伺服电机)、通信模组及能源管理系统。芯片作为核心计算单元,提供算力支持复杂算法运行;传感器采集环境多维数据(视觉、听觉、触觉等),实现智能感知;控制器高效处理数据并输出指令;伺服电机精准执行运动控制;通信模组保障设备间协同与数据流转;能源管理系统通过高性能电池与电源技术确保稳定供电。上游组件的性能与可靠性直接影响中下游技术实现与应用效果,是产业链的底层基石。 2、产业链中游:技术开发与系统集成 中游聚焦技术整合,通过AI算法、操作系统、云服务及中间件激活硬件潜能。AI算法作为“智能中枢”,驱动数据分析与自主决策;操作系统提供统一软件平台,支撑应用开发与管理;云服务扩展算力与存储能力,支持大规模数据处理;中间件连接异构系统,实现跨组件高效协作。中游通过软硬件协同开发,将上游硬件转化为可执行复杂任务的智能系统,并为下游应用提供技术解决方案,是推动产业链创新的技术引擎。 3、产业链下游:主要产品与应用场景 下游环节是产业链的最终输出端,产业价值闭环的最后一环,涵盖了机器人、自动驾驶载具等主要产品以及这些产品在工业制造、服务业、医疗康复、教育娱乐、交通出行、公共安全等领域的多元化应用场景。这一环节直接触达消费市场与B端客户,完成技术成果向商业价值的转化,既是产业生态链的核心价值落脚点,也是驱动产品迭代与场景创新的关键枢纽。 ——主要产品。具身智能下游核心产品涵盖机器人与自动驾驶载具两大方向。机器人以服务、工业、医疗、人形等类型为主,依托高精度传感器、智能算法及多模态控制技术,可执行复杂环境下的精细化作业,显著提升服务效率、制造业自动化水平及医疗辅助精准度。自动驾驶载具聚焦自动驾驶汽车、无人机与eVTOL(电动垂直起降飞行器),通过自主导航与协同控制技术优化交通出行、物流配送及城市空间利用效率,推动立体化智能运载体系发展。 ——应用场景。具身智能产品深度赋能多领域场景:工业制造中应用于自动化产线、智能仓储及质检环节,驱动制造业智能化升级;服务业通过部署客服、配送机器人提升运营效率;医疗领域借助康复机器人实现个性化治疗;交通出行依托自动驾驶技术重构物流与客运模式;公共安全则利用应急机器人强化灾害救援与安防能力,形成全场景协同的产业生态。 (二)人形机器人竞争格局 具身智能产品企业以人形机器人为主,中美两国占据主导地位。根据摩根士丹利近期发布的人形机器人100强名单(涵盖产业链整体),中国和北美(含加拿大)各有35家企业上榜,亚太地区(日韩为主)18家,欧洲等12家。国外人形机器人主要企业包括特斯拉、美国Figure AI(微软、英伟达、亚马逊、Open AI等参投)、美国波士顿动力(目前被韩国现代收购)、挪威1X Technologies(Open AI参投)、美国Agility Robotics(亚马逊等参投)、美国Apptronik、美国UCLA RoMela、英国Engineered Arts、加拿大Sanctuary AI、西班牙PAL Robotics、德国Neura Robotics、韩国Rainbow Robotics(三星投资)、日本本田ASIMO、美国通用汽车等。 我国人形机器人企业可分为四类。国内已有超过80家企业推出人形机器人产品,并仍在持续增加,各厂商根据自身在结构设计、控制算法、具身大模型等方向的技术积淀,持续创新,并逐步尝试商业化落地应用探索。根据技术路径、行业背景和产业链定位,国内布局人形机器人的企业可分为以下初创型企业、大型科技企业、整车企业、传统机器人企业。初创型企业以宇树科技、智元机器人等为代表。大型科技企业包括华为、腾讯、小米、阿里巴巴(蚂蚁灵波科技)、字节跳动、大疆创新、科大讯飞、美的等,其中华为、腾讯主要是通过资本、平台、生态合作进行布局。整车企业包括小鹏汽车(鹏行智能)、广汽集团、比亚迪、奇瑞、理想、长安、上汽等,其中小鹏、广汽、比亚迪等已进入量产准备阶段,部分企业同时投资和合作扩展技术生态。从传统机器人延伸的代表企业包括节卡机器人(协作机器人)、普渡科技(清洁、配送机器人)、越疆科技(工业机器人)、达闼科技(服务机器人)、傅利叶智能(医疗康复机器人)、猎户星空(服务机器人)、追觅科技(扫地机器人)等。 目前国内人形机器人科创企业(不含大型科技集团、整车企业)大致可分为三个梯队,并初步形成差异化格局: 第一梯队以估值达10亿美元(约合70亿元人民币)以上的为主,包括智元机器人、宇树科技、傅利叶智能、银河通用、云深处、普渡科技、非夕科技等,第一梯队企业均聚焦高动态运动控制与仿生交互技术,产品进入迭代测试阶段。 第二梯队为目前或年内估值超过3亿美元的具备量产能力的硬件驱动企业,如星动纪元、智平方、逐际动力、星海图、众擎机器人、乐聚机器人等,其核心机型已进入小批量交付阶段。 此外,潜力层覆盖星尘智能、穹彻智能、松延动力等。整体来看,头部企业依托资本与研发优势加速技术迭代,腰部厂商则通过差异化场景落地争夺市场空间,行业竞争逐步向产品成熟度与商业化能力倾斜。
表3 我国人形机器人整机企业情况
资料来源:国家人形机器人创新中心《2025具身智能产业生态图谱》、高盛集团《Humanoid Robots III:The supply chain dynamism》等,深企投产业研究院整理。
(三)重点环节市场格局 1、芯片 具身智能产业的发展离不开多元化芯片体系的支持,其产业链涵盖从云端训练到终端执行的全链条硬件需求。所需芯片种类主要包括AI算力芯片、通用计算芯片、传感器接口芯片、存算一体芯片以及通信与互联芯片等。其中,AI算力芯片是支撑具身智能实现“感知-决策-执行”闭环的关键硬件,处于产业核心地位。根据部署位置与功能的不同,具身智能AI芯片可划分为云端训练芯片、云端推理芯片和端侧推理芯片三类。这三类芯片在设计目标、技术路线及应用场景方面均存在显著差异,共同支撑起具身智能系统在不同层级中的算力需求。
表4 具身智能所需的主要AI芯片
资料来源:头豹研究院,深企投产业研究院整理。
2、传感器 传感器是具身智能包括人形机器人与外界感知交互的关键。具身智能通过配备多种传感器来实现对外部环境的感知和自身状态的监测,从而完成复杂的交互与操作任务。根据应用载体的不同,传感器的功能定位和应用场景存在显著差异。在机器人领域,传感器主要用于模拟人类的感知能力,以支持精细化操作和高水平人机交互,例如触觉传感器用于检测接触力、温度及物体滑动状态,六维力传感器则协助实现关节力矩的精确控制,从而完成抓取和装配等复杂任务。而在自动驾驶载具中,传感器更侧重于环境建模与动态障碍物规避,如激光雷达提供高精度三维点云以识别障碍,毫米波雷达具备强天气穿透能力适应恶劣环境,超声波雷达则常用于近距离泊车检测。
图5 典型的具身智能传感器分布(以人形机器人为例)
资料来源:中信建投。
对于具身智能而言,智能体的力感知能力以及与外部的触觉、视觉、听觉交互能力极为关键,其对应的传感器性能直接决定智能体的环境适应性与应用边界。在人形机器人中,力传感器、电子皮肤、视觉传感器和惯性传感器是支撑其迈向高度具身智能的核心元件。这些传感器不仅单位价值较高,还与人形机器人向智能化、仿生化和高自由度方向的发展密切相关,对整体性能起到决定性作用,因此具备显著的市场潜力与广阔的应用前景。 在各类机器人传感器中,六维力传感器因其能够同时检测三个方向的力和力矩,已成为实现高精度操作与力控交互的核心部件。全球领先企业主要集中在欧美,产业起步较早。自20世纪70年代初以来,国外便开始对多维力传感器进行研究。目前全球机器人用多维力传感器的主要生产厂商包括美国的ATI、AMTI、JR3和Lord,瑞士的Kistler,德国的Schunk和HBM,以及加拿大的Robotiq和丹麦的OnRobot等。这些公司产品线丰富,定制化能力强,广泛覆盖多个下游应用领域。 国内对六维力传感器的研究始于20世纪90年代,近年来入局企业不断增多,目前主要厂商包括宇立仪器、坤维科技、鑫精诚、海伯森、蓝点触控、神源生智能及瑞尔特测控等。在协作机器人领域,六维力传感器的国产化率已处于较高水平。据GGII数据,2022年坤维科技在该细分领域出货量位居第一,市占率约60%,其后分别为ATI、蓝点触控、宇立仪器(已进入特斯拉供应链)和鑫精诚等,各家国产厂商在不同下游应用中形成了各自的侧重和优势。 全球及我国六维力传感器主要企业如下表所示。
表5 全球六维力传感器主要企业
资料来源:深企投产业研究院整理。
3、AI算法与大模型 AI算法是人工智能实现感知、推理与决策的核心方法集合,而大模型则是基于海量参数和复杂架构的算法高级形态,尤其依托深度学习与Transformer结构实现跨模态信息融合与通用任务处理。在具身智能领域,大模型作为一类关键AI算法集成形式,显著提升了智能体对物理环境的交互与任务泛化能力,成为实现“感知-决策-行动”闭环的核心软件基础,并持续推动机器人及泛具身智能系统的发展。该类模型通常基于多模态架构,融合视觉、语言、动作等多种感知与决策模态,能够执行从高层任务理解到底层运动控制的多种功能。按其核心功能可大致分为感知与场景理解模型、任务与运动规划模型以及端到端控制模型三大类。典型应用涵盖机器人导航与避障、物体抓取与操作、人机交互与协同作业等,既支持工业自动化、仓储物流等2B场景,也逐步渗透至家庭服务、教育陪伴等2C领域。与专用AI芯片协同优化,具身智能大模型正朝着更低延迟、更高能效和更强泛化能力的方向演进。 国际上,具身智能大模型的研发主要由谷歌、英伟达、Meta等科技巨头与斯坦福、伯克利等顶尖高校主导,聚焦于多模态融合、实时运动规划与端到端控制等核心能力。与此同时,国内也涌现一批专注于具身智能大模型研发的企业与科研团队,呈现出高校背景团队与市场化科技公司并进的竞争格局。清华大学TSAIL团队等科研机构在强化学习与仿真训练方面底蕴深厚;智元机器人、有鹿机器人等企业侧重服务与家庭机器人产品的系统整合与落地;若愚科技、千诀科技等创业公司则聚焦垂直场景,如工业巡检与家庭清洁,推动模型实用化与低成本部署;银河通用、穹彻智能等新兴力量致力于端到端抓取与人形机器人控制等前沿方向,展现出良好的技术创新能力。整体上,国内企业在模型的多模态融合、实时响应与场景适应性方面持续突破,逐步形成差异化竞争力。
表6 国内外主要具身智能模型及研发企业
资料来源:头豹研究院,深企投产业研究院整理。


