人工智能在2022年末迎来了新的一轮突破,同时也引发了业内新的畅想:人工智能技术能否变革机器人行业,让智能机器人变得可行?在这股浪潮中,外界很少听到星海图的声音。
星海图的联合创始人兼CEO-高继扬提出这样的观点:“具身智能的关键表现在于‘一脑多形’,具身智能的商业化卡点‘在脑不在形’。”而他提到的具身智能大脑,与近期的热点话题大模型密不可分,但外界繁杂的声音对其又形成许多误区。大语言模型本质上是赋予机器人理解世界的能力,而具身智能要解决的是在机器人在物理世界执行的能力。
农历除夕前的最后一天,BV百度风投在星海图苏州工业园区的办公室见到了星海图创始人高继扬,一起谈谈具身智能。此时星海图团队正在测试开发出来的新机型,他们好像忘记了转天就迎来了新的一年。
KEY TAKEAWAYS
具身智能的关键表现在于“一脑多形”,具身智能的商业化卡点“在脑不在形”
- 任何一个以AI作为核心驱动力的产品或商业模式背后都是4个要素的循环,商业价值、数据规模与质量、智能程度、产品力
- “单次失效的错误成本小于两次失效间的累计收益”是AI产品商业闭环的关键
- 让AI永远在甜点区发展
- 人形机器人不等于具身智能
- 自动驾驶是最简单的具身智能应用形态
- 具身智能将会是大语言模型最重要的下游应用,也是最重要的数据入口,但大语言模型本身不是具身智能的核心变量
- 星海图要找到具身智能的Scaling Law
- 创业不是做科研,创业和做生意不是割裂的
对话双方
星海图联合创始人兼CEO-高继扬
BV百度风投崔轲迪

#01 技术探讨
具身智能“在脑不在形”,将会成为大语言模型的重要下游应用
BV:继扬来介绍一下星海图吧。高继扬:星海图致力于研发通用的具身智能体,并使其服务人类世界。从成立伊始,我们就确立了以可落地的智能体产品为切入点、逐步构建现实商业闭环与数据闭环的智能发展路径。我们坚信具身智能的关键表现在于“一脑多形”,具身智能的商业化卡点“在脑不在形”。因此坚持从需求出发设定本体形态,并将每一步智能体产品建立在可工程化AI能力基础上。BV:哪些因素会让你觉得这个行业发生了一个变化?高继扬:目前可能行业里普遍觉得大语言模型算是一个核心变量,让大家突然对通用机器人这件事非常乐观,觉得通用操作家政服务机器人马上就要来了。但我们并不认为大语言模型是核心变量,它本质上是赋予机器人理解世界的能力,而具身智能真正要解决的是机器人在物理世界执行的能力。我们的一个基本判断是:阻碍智能型机器人大规模融入人类社会的关键瓶颈是智能系统,而不是机电系统。进一步探讨智能系统受哪些因素影响,我们发现关键在于计算能力和传感器系统,以及算法本身。计算能力和传感器系统随着智能汽车行业的发展,其产业链正在迅速成熟,成本也在大幅下降。我们预见到,未来机器人所需的传感器和计算单元将与当前智能电动汽车所用的非常相似,这是第一个重要变量。第二个关键点在于算法。虽然大家都在关注大语言模型的发展,但我们看到了更为基础的感知能力的发展。机器人的两大核心能力是移动和操作,而这两者背后依赖的就是感知能力。机器人是否能够像人类一样拥有“双眼”,即每个像素不仅被看到,而且被理解其语义信息和几何位置?经过过去十几年的发展,从最初的超声波和单线激光雷达,到高线束激光雷达,再到以视觉为主的特斯拉感知方案,感知系统已取得长足进步。BV:星海图的核心竞争力会是什么?高继扬:AI能力。这指的是AI基础模型的能力。这种基础模型不特指大语言模型,我们看到和智能机器人相关的基础模型会有两个,一个是进行空间三维感知的视觉基础模型,这是我们的核心能力之一。我们团队不仅有能力,也有明确的方案去构建类似人眼的高级感知系统。第二个是在物理空间进行任务执行的控制基础模型,类似于人类的小脑,这是我们的核心能力之二,近些年在学术界和工业界也取得了很多关键进展,比如强化学习应用到四足的移动,模仿学习应用于上肢的操作等。这两个基础模型彼此是一个高度配合的关系:人眼级感知加上小脑的运动操控,构成机器人智能算法的核心。星海图要基于这两个基础模型找到具身智能的Scaling Law。
BV:目前有大量团队在做人形,星海图做不做人形?高继扬:其实我的观察是,具身智能行业里三个大的误区。第一个就是人形机器人等于具身智能,其实具身智能是不讲究身体构形的,关键的是智能。这里边有很重要的概念叫cross embodiment问题,就是这套智能体系统可以在不同构形的身体上使用。第二个就是大语言模型可以极大赋能具身智能,这里面我觉得是有一定作用,但不是关键。因为大语言模型本质上是赋予机器人理解世界的能力,而具身智能要解决的是在机器人在物理世界执行的能力。第三个对于具身智能的技术上目前什么能做、什么不能做、什么能在三年之内落地,可能大家会有比较不一样的理解。比如说有的人会认为通用操作家政服务机器人在两三年之内就能够大规模普及,我们看来这件事是非常难的,这里面有相当多的科学问题,目前学术界都还没有完全论证清楚。 BV:但是Elon Musk做人形,这个怎么理解?高继扬:我理解现在绝大部分做人形的团队基本都在follow马斯克的逻辑,但是大家忽略了一个要点,就是是否具备特斯拉的起点和终点。特斯拉的起点是已经在一个成熟的本体上,也就是智能车,迭代出了相对完整的智能系统,且特斯拉的起点不是一个资金紧张的创业公司;而特斯拉的终点大概率是去火星盖房子。我们不能盲目地模仿路径,而忽略了人家的起点和终点。 BV:你们和上一代机器人的公司有什么根本的区别?高继扬:上一代机器人公司算是自动化设备,因为缺少智能,所以机器人产品的附加价值受到了限制。因为智能的引入,我觉得是再一次从根本上改变人类的生产力,上一次工业革命是生产力的自动化,下一次工业革命就是智能化。另外,具身智能不一定是代替人的逻辑,而是通过低成本的劳动力供给来提升人类整体的生产力水平。BV:如果劳动力是商品,这种商品可以由机器人或者人来完成供给,但过去由机器人完成供给的比例其实很低,而人类劳动力却又是有限且昂贵的。高继扬:对。我们可以通过人工智能再一次从根本上提高整体劳动力供给。这个供给一旦出现了,它可能会打开很多新的需求。 BV:大语言模型厂商和具身智能产品公司的关系会是什么?高继扬:具身智能将会是大语言模型最重要的下游应用,也是最重要的数据入口。具身智能未来能够进入到物理世界,一方面是需要有在物理世界执行任务的能力,另一方面就是要有和人进行交互的能力。在交互层就是大语言模型发挥重要作用的地方。BV:所以双方是一种合作的关系,而非竞争。高继扬:在一个阶段内一定是平行发展,合作共赢。但是我们讲的说物理世界智能体如果是终局的话,智能体一定是能够端到端的,所以前期一定是合作。BV:人工智能是一个不断发展的产业,以我对你的了解,对于技术路线、产品思路你会有自己比较坚定的看法,但你会意识到自己可能会判断错误么?会如何修正?高继扬:我们当前的所有判断和对未来的预测都是基于现有技术条件下进行的。在我们的创业过程中,我们不对科学问题的进展进行跳跃性发展的假设。在这样的前提下,我们专注于那些已经进入工程阶段的技术,并沿着这条路继续前进。但鉴于技术发展的速度之快,我们不能排除在未来一两年内,不论是在我们的公司、其他公司,还是在某个高校,可能会出现技术范式的重大变革。这是我们需要密切关注的事项。一旦这样的变革发生,我们必须做出及时的调整。我相信,我们很可能会是引领这种变化的一群人。#02 商业感触
单次失效的错误成本小于两次失效间的累计收益,让AI发挥实际应用价值
BV:过去的机器人和AI公司的商业化落地都有很多困难,你怎么看这个问题?
高继扬:任何一个以AI作为核心驱动力的产品或商业模式背后都是4个要素的循环,商业价值、数据规模与质量、智能程度、产品力。
而这个鸡生蛋、蛋生鸡的闭环条件就是,单次失效的错误成本小于两次失效间的累计收益,也就是运营剩余大于零。这句话有点拗口,但其实在星海图内部非常受用,是我们决定是否立项一个产品的关键。比如说ChatGPT,它的失效成本就是浪费用户几十秒的时间,单次失效成本非常的低,而给用户带来的收益是很大的,所以大家愿意每个月付费20美元给到OpenAI。我在决定做量产的时候,就是因为发现量产自动驾驶的商业模式可以有效地降低单次失效成本,由于司机还是在环的,即使我们AI算法出现了问题,人类司机的接管可以大幅降低我们单次失效的成本,这样就可以让数据和商业的闭环转起来。比如人脸识别在安防领域的应用也符合这个公式,你们在分析一个项目时候也可以试试看。BV:我们内部也经常讨论AI的边界,这决定了目前的技术是否有能力解决一些实际问题。高继扬:对的,通过降低单次失效的成本,来找到这样的一个更缓和的曲线,让AI永远在甜点区发展。#03 个人旅程
Waymo、Momenta与星海图,从自动驾驶到具身智能的向上探索
BV:什么时候开始想创业的,怎么就选择了这条赛道?
高继扬:创业这件事一直是心里边的目标,博士毕业的时候确定了创业要做智能机器人。那时候没立刻去创业,也是因为从技术上判断,我发现智能机器人的实现会非常复杂。需要行业达到一定阶段,同时我自身也得达到一定阶段。正式进入产业,是因为2015年,有幸跟汤晓鸥老师有过一次面对面的交流。在那之后,对商汤的工作愈发感兴趣,于是博士就切换到计算机视觉这个方向上。18年的时候,机器人和AI行业并不Ready,也没有现在具身智能的概念和路线。算力、供应链等资源也都不足以支撑“AI+机器人”的发展。当时就决定先进入自动驾驶行业,因为自动驾驶是最简单的AI+机器人的应用形态。当时我在Waymo负责感知相关工作,同时我也有机会全面深入地了解AI驱动的机器人系统的架构和关键要素。另外,Waymo依托的是Google的工程体系,Google的工程体系应该是全球最好的工程体系了。我最初的这些工程素质上的锻炼塑造,以及对于AI机器人系统应该怎么设计,都是在Waymo被培养出来的。BV:我发现你博士非常快就毕业了,三年左右?高继扬:三年半吧,这要非常感谢我在USC的导师Ram Nevatia。我花了差不多三年左右把毕业所需要的论文都发够了。当时我和Ram沟通就说到我的志向是在工业界,然后也希望能够尽早去做工业界的事儿。Ram是斯坦福出来的,非常理解我的心态,所以允许我提前毕业。BV:VectorNet的工作对自动驾驶行业的影响比较大,这个工作是Waymo期间的成果吗?高继扬:对。当时用深度学习来解决感知问题已经比较普遍了,然后到我进入Waymo的时候,刚好那个节点大家也想用深度学习去解决预测问题,但是一直都解决得不是特别好,问题在于卷积神经网络的感受野比较小,很难处理地图这样的全局信息,所以我们做了两个创新,一是用矢量的方式表征地图和轨迹,二是用图神经网络去编码。BV:什么时候意识到这个工作会对行业产生影响力?高继扬:在Waymo期间我们参与了为期一周的Hackthon我们第一次把神经网络给搭出来,当时我就已经强烈地意识到这个方法可行了,第一次训练的时候就已经比之前的卷积神经网络给出来的效果要好得多。因为意识到了这个算法的潜力,我们才在Waymo内部推动去尝试把这个工作以论文的形式发表出来。论文正式发表之后,当时有很多国内的大厂,比如美团、商汤、华为来联系我们。大家都认识到这个工作确实能够改变一些实际问题,希望我们能开源代码。但当时碍于Waymo自身的开源政策,我们没有把代码开源出来。后来网上也有很多同学去复现我们的工作,由他们完成了开源。再后来,百度Apollo的开源项目也把我们的算法采纳进去了。在这个过程里,其实我特别感谢Waymo的开放和包容,让我有机会参与不同模块的学习,有机会把好的东西分享出来。BV:为什么离开Waymo选择回国了? 高继扬:当时考虑了两件事,一个是产品量产能力,一个是管理能力。在Waymo我得到的是工程素养,以及比较全面的技术能力训练和学习。但是我缺乏带领一个相当规模的团队去做产品交付的经验,我也没有近距离观察企业是怎么运转的经验。同时,我比较相信我要做的创业会发生在中国,所以回国开始准备。2021年1月份我回国加入到Momenta,很荣幸刚好赶上上汽的顶点项目正式开始量产的阶段,在Momenta我接受了量产的全程锤炼。从感知、定位、规划控制、自动泊车和导航辅助驾驶(NOA),从小团队带到大团队。BV:你是92年的,在行业里以你这个年纪去完成全产品线这套研发、量产工作的人应该不多。 高继扬:年龄不重要。行业里目前有量产产品的就那么几家,在这几家里Momenta是第一梯队的,是因为在这个队伍中我才能有这个经历。另外,整个量产交付的过程确实是一个比较艰辛的过程,我坚持下来了,也正是因为坚持才获得了很多机会,从感知延伸到定位、规控等其他算法模块,再到负责整体的NOA。在这么短的时间内完成量产交付的公司就不多,然后在这样团队里面恰好有我这样转战不同模块产品经历的人就更少。要感谢自动驾驶行业这个舞台,以及在Momenta得到的机会。
CVPR 2023 WAD Workshop,
高继扬与Tesla、Waymo等公司负责人同台进行主题演讲
BV:看来Waymo和Momenta真的对你影响很大。高继扬:是。Waymo的经历让我明白,AI的商业模式一定要和AI技术本身的发展规律契合,这决定公司能否在短时间内找到自己的第一增长曲线;而Momenta让我明白,公司在所属行业里的生态位很重要,它决定了公司的发展上限和发展速度。BV:自动驾驶和具身智能创业跨越大吗?高继扬:具身智能是一个广泛的技术体系,自动驾驶则是这个技术体系在公开道路的具体应用。目前市场上的许多具身智能公司实际上并不直接相互竞争,竞争反而可能主要集中在融资方面。所以,从这个角度来说,我甚至不认为有什么跨越,自动驾驶是具身智能的应用形态之一。#04 创业讲述
这是最好的创业Timing,我们要追求更高的资本使用效率
BV:从开始筹备创业,现在进展怎么样了?
成为付费用户可以阅读 星海图 所有资料
了解更多 →阅读原文 ↗BV Voice专访