科技行者
算力行者
作者 | 金旺
栏目 | 机器人新纪元
来自中国机器人产业发展报告的数据显示,2022年,中国服务机器人市场规模首次超过了工业机器人。
而之所以有这样的发展趋势,离不开这些年人工智能技术在机器人领域的推广应用。
实际上,智能化已经是机器人产业的大势所趋,而且有了推动机器人产业发展的可能,就连全球机器人领域明星企业波士顿动力,也在2022年成立了人工智能研究院,在花大力气研究机器人的认知智能和运动智能。
这其中,视觉智能又是这些年在机器人领域应用最广,也是不少机器人能够在封闭或半封闭空间实现“自动驾驶”的关键。
2023年7月,来自ggii的统计数据显示,在3d视觉传感器这一细分领域,奥比中光在中国服务机器人领域2022年的市占率达到了71.09%。
奥比中光董事长兼ceo黄源浩称,“奥比中光2013年成立,2015年就开始为机器人产业提供3d视觉传感器。”
他认为,大模型对于整个机器人产业的影响堪比“核弹”。
在wrc 2023现场,我们与黄源浩进行了一次深入交流,聊了聊大模型如何影响机器人产业、人形机器人软硬件如何协同发展,以及奥比中光在机器人领域的产业布局。
“核弹”大模型,变革机器人
问:大模型,尤其是视觉大模型的出现,对机器人产业有怎样的影响?
黄源浩:视觉大模型和语言大模型类似,都是基于谷歌在2017年提出的transformer架构。
这让机器视觉经历了一次从基于cnn的架构到基于transformer架构的变化,机器人由此也变得聪明了很多。
为什么这么说?
因为基于cnn架构的机器视觉算法模型的学习过程需要大量的样本数据,这样的模型和你下1万盘棋,它记住了怎么下棋,也就学会了下棋。
但基于transformer架构的机器视觉算法模型,可能只需要很小的样本,在下棋方面就有了不错的能力,这样的大模型已经接近零样本学习,甚至已经和人脑的学习模式有点相似了。
这就让机器人有了类脑的能力,能够实现端到端控制,你只需要输入各种感知信息,输出直接就是动作了。
这也是为什么我会觉得大模型对于机器人产业而言会是一个核弹,因为它让机器人有了和人相似的运动控制模式。
问:大模型对3d视觉技术发展,会有怎样的影响?
黄源浩:现在大模型在朝着多模态方向发展,而多模态的大模型,本身已经在以图像、3d图像,甚至热成像图像作为输入数据了,这是它需要的一个基础信息。
另外就3d视觉而言,基于激光雷达和大模型两种方式的视觉技术是相辅相成的。
基于激光雷达的视觉技术更精准,但远距离定位能力会有所缺失;基于大模型的视觉技术现在还没那么精准,工作模式类似人眼,但它能够实现远距离定位。
我有一个观点是,未来机器人在某些方面的性能会比人表现得更好,比如机器人的感知能力。
问:现在3d视觉在机器人的认知智能和运动智能上,分别能实现哪些功能?
黄源浩:认知智能其实更容易做,现在也已经做得很不错了,现在基于3d图像数据训练的视觉模型,进行一些测距等工作已经比人更精准,将来基于这类模型的机器人很有可能会比人更聪明。
例如人如果要将一个凳子从一个地方搬到另一个地方,用肉眼观察通道的宽度,可能不知道是否能搬得过去,机器人看一眼就能测量出结果,这就是机器人比人厉害的地方,其中实现的就是认知智能。
至于涉及到决策、规划、控制等运动智能,目前有些企业或者机构做的是确定性模型,基于确定性模型的机器人可能拍出来的运动演示视频很好看,但在实际演示过程中,可能失败几百次后调了某一个参数,然后再测试几百次,又调了另外一个参数,这样往复测试才拍出一个不错的demo视频。
然而,这样实现的运动模型目前没有泛化能力,如果换到一个新的环境,模型也就无法完全适用了,这也是为什么像波士顿动力这样已经创立了超过30年的公司仍没能实现商业化的原因。
大模型到来之后,只要把基于transformer架构的大模型部署好,随着数据不断输入,机器人就可以做各种动作;当成功做出一个动作,这样产生的就是一个好的样本数据,没成功就是一个不好的样本数据……。慢慢地,它自己就能学会如何运动。
大模型的参数量级非常大,普遍都在10亿级乃至百亿级,如果纯靠人,是无法实现这样级别的参数调参的。因而,企业基于确定性模型研发的机器人,如果再迁移到新模式上,可能只能贡献10%-20%的能力,80%-90%都要基于transformer框架重新再做模型训练。
今年大模型发展这么迅速,接下来你会发现,无论是四足机器人,还是人形机器人,它的进化速度会比原来快很多。
明年世界机器人大会上,相信我们就会看到,这些机器人已经聪明很多了。
今年大会上的机器人还没有很多互动演示,估计明年至少四足机器人会出现比较好的互动能力,后年人形机器人也可能会有很好的互动能力,甚至能跑起来。
人形机器人,软硬件发展如何协同?
问:激光雷达、3d视觉在人形机器人上,现在有怎样的应用?
黄源浩:现在人形机器人产品中,基本都有传感器,激光雷达、避障传感器正常也都有。
实际上,人形机器人未来必然会有多种传感器做数据输入,像特斯拉的多目方案会是一种输入方式,我们这种双目结构光传感器也会是一种输入方式,激光雷达当然也会是一种必不可少的输入方式。
目前人形机器人的功能、性能都还不够强,随着它的能力变得越来越强,量产能力上来了,元器件的成本也就会随之下降,这是一个产业化必然要经历的一个过程。
问:您如何看人形机器人未来的商用情况?
黄源浩:在我看来,人形机器人现在就像一个小孩,它一定会长大,长大过程中会逐渐学会一些技能,等到它18岁、20岁的时候,可能就能够实现普及应用了。
这么来看,其实还有20年,现在他才刚刚1岁,20年后人形机器人说不定会有几十亿个。
而要说人形机器人第一个商用场景,我认为大概率会是工业,像在汽车工厂里,未来人会越来越少,预计5-10年就能大规模实现无人化工厂了。
其它诸如家庭陪伴这样的场景,我认为可能不会那么快到来,还需要一定时间。
问:人形机器人的软硬件技术如何协同发展?
黄源浩:当下人形机器人的智商和运动控制能力像是刚出生的孩子,但他的身体骨架已经接近七八岁,所以现在我们处于一个硬件发展快于软件算法发展的阶段。
可能再发展几年,硬件相对软件,又会变成短板。
例如机器人的关节,现在一个成年男性能够轻松抬起30公斤、50公斤的重物,但人形机器人拿5公斤、10公斤的重物就已经很难平衡行走了;
此外,人的关节可以用一辈子,但人形机器人的关节可能使用500次、1000次后,各项指标就会下降。
所以现在硬件也还没有准备好。
如果将人形机器人的软件和硬件比作它的两条腿的话,只有人形机器人的“两条腿”迈步走路,整个产业才能持续前进。
问:所以现在其实是硬件已经发展到一定阶段,软件算法需要跟上的阶段,而大模型的出现,让人们看到了人形机器人在软件上实现快速突破的可能。
黄源浩:传统人工智能可能短期还追不上人形机器人硬件的发展,但是大模型的出现大大加速了这个过程,同时,行业也在硬件上攻坚克难,往前迈步。
机器人迎来产业大分工
问:今年7月你们发布了一个机器人视觉产业技术中台,奥比中光具体在机器人领域有怎样的思考业务部署?
黄源浩:其实2016年我们就开始为机器人企业供货3d视觉传感器了,之前机器人出货量相对比较少,但7年下来,我们确实为机器人产业提供了很多视觉传感器。
其实transformer在2017年就被谷歌提出了,只是gpt、大模型的出现,让大家意识到了这个框架的强大, transformer架构出现的这几年,我们也一直在思考,也许大模型的出现会让机器人产业,站到20年前互联网行业发展初期的时间节点上,而它之后将会保持高速发展。
在机器人产业中,未来除了陪伴类机器人会是大批量出货的产品外,还会有几十亿小批量、多型号、多机种的各类机器人。
现在机器人企业很多,未来经过大浪淘沙后,还会有两三千家机器人企业。
现在每个机器人企业都得自己做关节、传感器、模型算法等等,这种模式的投入产出比显然是不够的。
对于机器人这个新兴产业,尤其是人形机器人,没有自研技术,就很难获得资本市场青睐。
但随着产业的发展,市场的关注点会逐渐从技术这个单一维度转向更注重投入产出比,投入产出比能否至少打平,就成了一个企业未来是否能够融到资金的关键。
我的观察是,现在强调自研能力的机器人企业,慢慢会转向外采,整个产业会走向一个更符合现在商业世界规则的大分工时代。
这也是为什么我们会做一个产业技术中台的原因,从技术角度看,奥比中光的综合能力很强,从传感器、雷达、模型算法,到小批量多机种的机器人制造,我们都积累了很强的能力。
就制造角度而言,机器人行业更需要的小批量、多机种的制造,这也是奥比中光的优势。
我们对机器人视觉产业技术中台的定位是,不做机器人(整机)品牌,但是整个机器人产业需要的诸如视觉传感器、激光雷达等提供通用能力的产品,我们会尽我们所能去提供,并邀请生态伙伴一起进来,推动整个机器人产业发展。
问:奥比中光机器人业务目标要实现怎样的业务规模?
黄源浩:机器人产业每年肯定是持续上升的,也会是我们一条持续增长且增长很快的业务线。
好文章,需要你的鼓励
操作系统有我们看不见的一面,是对计算系统底层资源的管理。但是对于大多数用户而言,操作系统看得见的另一面,则更为重要,它就是——人机交互方式。
大模型要想在人形机器人上发挥出魔力,至少要满足一个基础条件:数学模型与物理模型之间的统一。