• 首页
  • 报告
  • 资讯
  • 快讯
  • 图表
  • 网址导航

机器人行业报告:AI赋能人形机器人,关注核心零部件发展机遇 ...

2023-7-13 12:00| 发布者: 派大星 9 0

摘要: 本机器人行业报告探讨了AI如何赋能人形机器人,并关注核心零部件的发展机遇。报告介绍了具身智能的概念以及智能机器人与非智能机器人的区别,详细解析了AI机器人的五大部分以及完成任务时的三个层次。报告指出人形机器人赛道经历了缓慢发展阶段,但随着算法和硬件的进步,特斯拉、小米等厂商陆续推出了自己的人形机器人产品,预计将带来行业的快速发展。此外,报告提到各大科技巨头推出的AI大模型有望解决人形机器人的通用性问题,其中谷歌的RT-1和PaLM-E等模型表现出了很大的突破。最后,报告指出Meta发布的SAM模型可以在不

报告出品方:西南证券


以下为报告原文节选


------


1AI赋能机器人,具身智能发展正当时


1.1机器人是AI落地的最佳载体


具身智能(EmbodiedIntelligence)是AI进入物理世界进行交互的载体。根据智能程度,可以将机器人分为两类:非智能机器人和智能机器人;同时根据有无载体,也可以将人工智能分为两类:虚拟AI和实体AI。机器人与人工智能的交集,即:作为AI实物载体的智能机器人。一般的工业机器人只能被编程为执行重复的一系列运动,所有的运动轨迹、位置、动作、力度都需要提前设定,更突出其“机器”属性,智能机器人则可以与外界交互,根据自身对外界的感知,决定完成任务的方式,并且可以在失败中不断学习进步,相较于非智能机器人的“机器”属性,智能机器人更像是“人”。



AI机器人可以分成五大部分。1)感知系统,相当于机器人的“五官”,包括声音、光、温度、压力、定位、接触等传感器,用以将外部环境信号转换为机器人可以理解的信息或者数据;2)驱动系统,相当于机器人的“肌肉”,电机驱动包括电机、减速器、编码器等;3)末端执行系统,相当于机器人的“手”,用以和外界环境进行交互;4)能源供应,电源或者电池;5)运算系统及软件,相当于机器人的“大脑”。


AI机器人在完成任务时需要经历三个层次。给到机器人一个任务时,机器人一般要经历三层信息处理:1)第一层是感知,理解需求和环境。机器人通过传感器感知周围环境,并且识别到任务体在环境内所处的位置。2)第二层是规划,拆解成任务和路径规划,机器人理解任务之后,它需要将任务拆解成多个步骤,按顺序执行步骤达到完成任务的目标。3)第三层是执行,驱动硬件执行任务,把运动规划转变成为机械指令,确定能量、动量、速度等参数,开始执行任务。非智能机器人无法对外界进行自主感知,需要人类计算出运动路径并设定运动参数,而智能机器人可以自主感知外界,并拆解任务、设计路径,最终完成任务。



人形机器人赛道迎来快速发展阶段。进入到21世纪以来,以本田、波士顿动力为首的各大厂商纷纷布局人形机器人产品,但是受限于硬件和软件的成熟度,早期的人形机器人发展缓慢。在算法和硬件的不断进步中,人形机器人赛道也出现了很多“新面孔”,2022年以来特斯拉、小米等各大厂商陆续推出了自己的人形机器人产品,尤其特斯拉以“量产”为目标,预计将推动整个行业迎来快速发展。




1.2AI大模型助力具身智能发展


各大科技巨头纷纷推出AI大模型,有望解决人形机器人的通用性问题。1950年图灵首次提出具身智能的概念,此后几十年里,受制于落后的AI技术,具身智能并没有取得很大的进展。近年来随着硬件和软件算力的不断提升,各大公司相继推出AI大模型算法,包括Open A I的GP T-4、谷歌的RT-1、PaLM-E等,有望解决机器人的通用性问题,具身智能迎来快速发展。



2022年12月,谷歌发布多任务模型RoboticsTransformer1(RT-1),用以大幅推进机器人总结、归纳、推理的能力。RT-1是一种多任务模型,可以标记机器人输入和输出动作以在运行时实现高效推理。训练模型使用的数据集涵盖700多项任务的13万个数据带点,使用13台机器人在17个月内收集而成。RT-1可以显著改进机器人对新任务、环境和对象的零样本泛化,机器人执行从未做过的任务的成功率明显上升,对不同环境甚至有干扰的情况下的成功率也有上升;此外使用别的机器人数据来训练模型,使得自己机器人的执行任务的准确率得到提升。



2023年3月,谷歌和柏林工业大学共同发布可以用于机器人的多模态视觉语言模型PaLM-E,用视觉数据来增强其语言处理能力,可以指导机器人完成复杂的任务。PaLM-E主要基于谷歌现有的PaLM大语言模型,并且加入了感知信息的能力,能让机器人真正“理解”任务,将看到的图像转化成可以理解的语言文本,从而做到在面对零样本新任务时的“举一反三”。PaLM-E无需对相关数据进行预处理或注释。



2023年4月,Meta发布了图像分割模型SAM。SAM可以在不需要额外训练的情况下对不熟悉的对象和图像进行零样本泛化,从而“剪切”任何图像中的任何对象。在SAM发布之前,想把图像准确分割,需要人类手动分割后再交给机器人学习,这需要大量专家进行高度专业化的工作,费时费力。SAM使得机器人将所学到的分割图像进行细致标注,让机器人理解对象(Object)是什么,因此可以为任何图像或视频中的任何对象生成遮罩,即使是在训练中没有见过的对象。



2特斯拉人形机器人Optimus的AI赋能分析


2.1软硬件不断迭代升级,核心为优化成本和效率


特斯拉人形机器人Optimus问世,核心为优化成本和效率。2021年8月,马斯克首次发布特斯拉人形机器人(Tesla Bot)计划,代号“擎天柱”(Optimus)。在2022年9月底举办的特斯拉AI DAY上,马斯克公开了人形机器人Optimus原型机,人形机器人体重73kg,静坐100W功耗,快走500W功耗,全身自由度200+,手部自由度27,搭载与特斯拉车辆相同的完全自动驾驶(FSD)大脑,2.3KWh电池组(集成充电管理、传感器、冷却系统)可以满足一天的工作需要。特斯拉人形机器人的核心为在满足功能的前提下降低成本和能耗,即尽可能减少零部件数量和每个元件的功耗,例如减少四肢的感应和线路。马斯克称特斯拉机器人有望在3-5年时间内交付,产量可以达到数百万台,价格可能不到2万美元。


人形机器人Optimus软硬件不断迭代升级。2023年5月特斯拉股东大会发布人形机器人Optimus最近进展,包括机器人走路、利用视觉感知周围的环境、手臂精确控制力道不打碎鸡蛋、手掌抓取线束等柔性物体、人类演示训练AI、机器人修理机器人等场景,表明人形机器人Optimus的硬件和软件性能得到进一步提升。


特斯拉人形机器人Optimus类似“汽车立起来装上脚”,因此可以复用大量汽车相关技术进行迭代升级:


1)感知系统:可采用和汽车类似的计算机视觉技术。根据最新的特斯拉股东大会,Optimus摄像头方案为7个摄像头配置(前方3个,两侧各1个,下方各1个),通过不同方向上的摄像头观察到的点来确定位置,投射到向量空间,让机器人感知、识别并且理解周围环境。


2)驱动系统:14个旋转线性执行器+14个线性执行器;


3)末端执行系统:“灵巧手”共12个空心杯关节;


4)能源供应:2.3KWh电池组(集成充电管理、传感器、冷却系统);


5)运算系统及软件:搭载与特斯拉车辆相同的完全自动驾驶(FSD)大脑,将FSD使用到的神经网络和模拟仿真训练技术迁移到机器人,唯一需要改变是训练数据集,通过处理视觉数据,做出决策,包括路径规划、路径记忆、环境互动、导航充电等。



2.2 AI多次模拟,优化设计方案


车辆碰撞模型技术横向迁移,保护机器人的“大脑”。2022年9月,在特斯拉AIDay上,技术人员展示了如何借助现有的AI碰撞模型对人形机器人部件排布进行优化。车辆碰撞模型会先记录一次实体碰撞时各个传感器的数据,然后将车辆数据和碰撞数据传入系统中,生成一份数据库,再由AI将车辆拆分成超过3500个自由度,模拟上万次不同角度、力度的碰撞,最后将所有碰撞数据汇总,找到车辆现有构型的缺点并加以改进。工程师将此技术用于机器人部件排布设计,将重要部件放置在远离碰撞受损核心处,并将外壳设计成更能抵抗外力的形状,保证机器人即使意外摔倒也不会影响到躯干内的核心零部件。



AI仿真模型寻找成本和效率的最佳组合。人类有超过200个自由度,手部27个自由度,同时快走功耗只有500W,低功耗的同时又具有高度的灵活性。在设计机器人时,需要机器人在完成具体任务的情况下,尽可能降低成本,在运动能力和低成本间找到最佳平衡点。特斯拉为机器人设计了全身28个执行器(不含手部),用以完成Pitch(绕X轴旋转)、Yaw(绕Z轴旋转)和Roll(绕Y轴旋转)等不同动作,再通过AI仿真模型和实际验证,在低功耗、低成本和最轻质量的目标下,选取一个关节的最佳设计。



提高零部件通用程度,将28个关节简化为6种执行器。特斯拉工程师使用多个场景模拟机器人的工作状态,计算出每种场景下执行器的消耗和质量,并将其抽象为一个点,求解整个质点云的帕累托最优,得到可以满足多种使用场景的关节设计。经过AI的分析优化,将关节选型做到复用,最终实际的执行器减少到6种,包含3种规格的旋转执行器和3种规格的线性执行器。



2.3FSD+Dojo加持,提高机器人执行力


FSD技术助力机器人感知世界。FSD算法是指特斯拉的全自动驾驶(FullSelf-Dri vi ng)系统采用的算法,用以实现车辆自主导航和自动驾驶功能,让车辆能够在各种交通环境下进行感知、决策和控制。FSD算法主要依赖神经网络和计算机视觉技术,通过处理和分析传感器获取的实时数据,提取有关道路、车辆、行人和障碍物的信息,实现环境识别功能。目前特斯拉已经打通FSD和机器人的底层模块,将FSD技术复用至机器人,在机器人感知、决策、控制方面起到重要作用。



占据网络让机器人“擦亮”双眼。在感知层面,FSD使用占据网络(OccupancyNetwork)对3D空间内的障碍物进行持续检测,来估计障碍物的位置、大小、运动情况。FSD算法可以帮助机器人感知周围环境,识别物体、人和障碍物。


--- 报告摘录结束 更多内容请阅读报告原文 ---


报告合集专题一览 X 由【报告派】定期整理更新


(特别说明:本文来源于公开资料,摘录内容仅供参考,不构成任何投资建议,如需使用请参阅报告原文。)


科技 / 电子 / 半导体 /


人工智能 | Ai产业 | Ai芯片 | 智能家居 | 智能音箱 | 智能语音 | 智能家电 | 智能照明 | 智能马桶 | 智能终端 | 智能门锁 | 智能手机 | 可穿戴设备 |半导体 | 芯片产业 | 第三代半导体 | 蓝牙 | 晶圆 | 功率半导体 | 5G | GA射频 | IGBT | SIC GA | SIC GAN | 分立器件 | 化合物 | 晶圆 | 封装封测 | 显示器 | LED | OLED | LED封装 | LED芯片 | LED照明 | 柔性折叠屏 | 电子元器件 | 光电子 | 消费电子 | 电子FPC | 电路板 | 集成电路 | 元宇宙 | 区块链 | NFT数字藏品 | 虚拟货币 | 比特币 | 数字货币 | 资产管理 | 保险行业 | 保险科技 | 财产保险 | 机器人行业





 免责声明:本文版权归原发布机构及作者,如涉及侵权请联系删除。本文仅供参考,如需使用相关信息请参阅报告原文。

 获取PDF完整版报告下载方式请关注:报告派