腾讯将人形机器人写进计划里 - 科技资讯(幸福双城资讯网)

作者 | 金旺

栏目 | 机器人新纪元

2024年1月，腾讯发布《2024数字科技前沿应用趋势》报告，在这份报告中，“AI加速人形机器人‘手、脑’进化”排在十大前沿应用趋势第三位。

于是，我们看到，3月30日，在上海举办的首届中国具身智能大会上，腾讯Robotics X实验室成了大会四大钻石赞助商之一，腾讯首席科学家、Robotics X实验室主任张正友在大会上也做了具身智能主题演讲。

张正友在大会上指出，AGI的终极形态，会是一个机器人形态。

在人形机器人最热闹的这一年里，腾讯做了灵巧手、机械臂（相当于人形机器人上半身的手臂控制能力），也做了各种四足机器人（相当于人形机器人的下半身的运动能力）。

科技行者在腾讯关于机器人的未来规划中，已经看到了人形机器人的身影。

现在，我们可以再期待一下腾讯的人形机器人了。

01 智能，是否需要具身？

什么是具身智能？

张正友指出，所谓具身智能，是指有物理载体的智能体（也就是智能机器人）在与物理世界的交互过程中，通过感知、控制和自主学习来积累知识和技能，形成智能，并由此影响物理世界的能力。

实际上，具身智能并不是什么新鲜事物，早在1950年，人工智能之父艾伦·图灵发表的那篇大名鼎鼎的论文《Computing Machinery and Intelligence》中，就已经提出了这一概念。

OpenAI CEO奥特曼也曾指出，“如果我们有了通用人工智能，而在物理世界中完成一件事唯一的方法还是让人类自己去做，那就太令人沮丧了。”

“我们会在某个时候以某种方式重返机器人领域。”

奥特曼最初构建OpenAI时，就是想基于机器人来实现通用人工智能，只不过，命运多舛，才有了后来的ChatGPT和Sora。

实际上，OpenAI在过去两年里已经相继投资了两家人形机器人公司，一家是1X Technologies、另一家是Figure AI。

那么，智能，到底是否需要具身呢？

这一问题在产业界其实依然有两种声音：

一种声音认为，智能并不一定与物理形态有关，智能主要关乎信息处理、问题解决和决策制定，这些都可以通过软件或算法实现。

另一种声音则认为，身体对于智能至关重要，智能源于生物体与周围环境之间的互动，这需要物理形态。

张正友在大会上指出，“我相信大家都认为智能是需要具身的，否则就不会来参加这场具身智能大会了。”

赞同这一观点的人，当然也包括张正友本人。

实际上，张正友在演讲中也指出，AGI的终极形态，是一个机器人形态。

02 腾讯造机器人的A2G

2018年，张正友正式加入腾讯，并在这一年组建了腾讯机器人实验室，Robotics X实验室。

张正友说，腾讯这一实验室成立之初定了，团队内部定下了一个指导方针——A2G。

具体而言，是用ABCDEFG代指了几个技术要素的英文缩写，翻译过来，这几个要素分别为：人工智能、机器人本体、精准控制、发育学习、情感理解、灵巧操控、守护天使。

其中，人工智能、机器人本体、精准控制为底层基础能力，发育学习、情感理解、灵巧控制构成了更上层的中间层能力。

最上层的G，具体是指通过部署在环境中的传感器，让环境和机器人信息共通，通过云与家人和世界互联，让机器人成为守护天使。

这是一个相当宏大的愿望，一个宏大到很难说这个实验室还要经历几代科学家的努力，才能达成夙愿。

不过，就这样，腾讯在这一年开始了机器人的技术研发，各类机器人在之后几年里也陆续面世：

2019年12月，腾讯发布了自平衡自行车；

2020年10月，腾讯发布了的四足机器人Jamaca学会了走梅花桩；

2021年2月，腾讯发布了多模态四足机器人Max；

2021年11月，腾讯发布了IDC运维机器人；

……

到2023年，腾讯又发布了拥有灵巧手和机械臂的机器人，这款机器人还学会了调酒。

就在大家觉得机器人离走进人类生活已经近在咫尺时，实际上，AGI+机器人的模式创新才刚刚开始。

03 再造一个新范式

也是在本次大会上，张正友重提了一个概念“SLAP范式”。

每个科学家要想自成一派，就要创造一套自己的理论。

早在2018年，Robotics X实验室成立后，张正友就提出了SLAP范式。

这一范式的提出，其实基于张正友对智能控制的理解。

张正友说，“我们感兴趣的机器人要能应对不同环境，即使在不确定性很大的环境中，仍然能够有自主调整和规划的系统。”

这就要求机器人有两类自主能力：

一类是反应式的自主能力，另一类是有意识的自主能力。

反应式的自主能力是说，在遇到被人踢了一脚这样意想不到的情况后，机器人能够很快适应变化，并调整自己的姿态；

有意识的自主能力则是说，机器人要有自主规划能力。

要实现这样的具身智能，显然已经无法依赖传统的“感知-计划-行动”的控制范式，于是，张正友提出了SLAP范式。

SLAP范式同样是几个英文单词的所系，具体而言是，感知、行动、学习、计划。

这套范式与传统控制范式最主要的区别在于，张正友将感知与行动连系到了一起，并将学习渗透到了各个模块。

“只有感知与行动紧密相连，才能够把反应是怎样实现的搞清楚。”

张正友提出的这一范式，其实也参考了人类大脑的思考范式，并参考人类大脑，提出了具身智能的三层系统：

第一层是原始控制层（Primitive Level Control），通过运动数据，对机器人进行训练。

第二层是环境感知控制层（Environmental Level Control），通过对环境的感知，实现机器人在不同环境中的平稳运动。

第三层是策略控制层（Strategic Level Control），通过给定相关任务，机器人进行自行推理，然后在环境中实现类似人类大脑的控制决策。

实际上，腾讯的四足机器人的控制系统就是这样一步一步构建出来的。

不过，这些都是腾讯过去几年做的工作。

现在，腾讯Robotics X实验室正在将多模态大模型融合到机器人系统中，增强机器人环境感知和视觉能力，让他们的机器人能够听懂人话，能够和人类在语言和动作上进行简单的交互。

至于未来规划，科技行者在现场也了解到，腾讯Robotics X实验室至少已经有了两方面考虑：

首先，腾讯将就三维感知数据和腾讯的混元大模型或开源大模型LLAMA2-7B优化策略控制层；

其次，腾讯也已经将人形机器人写到了未来计划中。

接下来，我们可以期待一下腾讯的人形机器人了。