
人类的科技发展不论是生物学、计算机及其他自然科学其实有一个终极动向造人成为造物主上帝一样的万能。换句话说我们的科技的努力就是要打造一个新人类来替换掉如今旧的我们从而更长久的生存。这就跟哲学上的“以人为本”一个道理。目前最贴合的技术就是AI机器人了。人工智能这个方向的诱惑实在太大所以在技术成熟前就沦为画饼欺骗的工具在之前文章AI系统-1AI的应用和历史中指出了这个过程延续了很多年只要说搞人工智能就是骗子没经费所以各种替代词天花乱坠例如大数据、模糊识别等。直到智能涌现能力的Transformer出现这个词才重新进入大众视野。在一些列技术发展的今天要说目前的风口那估计就是AI机器人了也叫具身智能。其用到的核心AI技术跟之前介绍的基本一样这里就不分析具体技术从另外一些角度分析为什么会有风来带大家科普了解下具身智能和机器人产业的一些思考。1. 具身智能介绍1.1 具身智能定义具身智能Embodied AI具有身体的的智能AI。具体点说像人一样能与环境交互感知自主规划、决策、行动、执行能力的机器人/仿真人指虚拟环境中是AI的终极形态我们暂且称之为“具身智能机器人”。它的实现包含了人工智能领域内诸多的技术例如计算机视觉、自然语言处理、机器人学等。1.2 具身智能价值具身智能的价值在某个领域超越人类对人类有帮助。具身智能本体决定上限算法决定下限。例如只有一个机械臂那本体就是手臂那再智能只能做一个手臂的事情。算法是下限就是说不同算法的智能程度差异巨大需要不断的改进算法。1.3 具身智能为什么火其能火起来因为ChatGPT因为大语言模型具备的涌现能力大家的第一印象就是可以让这个有智慧的AI有一个身体去做更多的事情。ChatGPT还是数字二维世界但是物理三维世界也可以用LLM汽车可以用LLM去自动驾驶但是机器人也可以用进入三维物理世界去感知、决策、执行辅助人类就跟科幻电影里面的机器人一样。特斯拉说自己不是一家汽车公司是一家AI企业。理想汽车最近的AI Talk也这样说。之前文章AI系统-6从Transformer大模型到端到端自动驾驶算法中的NPU软硬件是LLM出现后开始的英伟达能上风口完全是风口撞上了英伟达因为英伟达也没想到自己的GPU被用于训练大模型就是突然就有用了突然就上了风口。那么这个具身智能也是大模型出现后才进入风口的产物所以西方能把其看成第四次工业革命。之前的物联网技术跟这个比弱爆了。一个技术看似很好例如被学术界看好但是其并不一定能在社会上流行起来因为还有工业界的一些限制必须考虑成本和可复制的需求而且需要多层次的技术推动不能有短板。上述都满足后还需要资本看好的这个东西。所以有时候趋势出来是必然中夹杂着偶然不一定什么时候什么技术就火了成了风口那时候再跟进其实也不晚。下面是具身智能火爆的一些因素AI大模型的技术视觉语言等领域AI的应用算力硬件的增长电池技术电机技术成本老龄化资本炒作学术界工业界2. 具身智能怎么落地2.1 产业趋势特斯拉投入Embodied AI的原因机器人是汽车的延伸都有感知规划决策控制的过程技术栈类似可以迁移成本低因为汽车上的技术积累不用重新再开发AI的基础设施可以共用从技术成熟度看目前汽车处于复苏期而机器人估计在则在期望膨胀期。从创新扩散曲线看机器人处于创新期汽车则在早期大众。这个图跟创新扩散比较像从产品生命周期来看也一样。从这些周期上看对于大公司来说要找对节奏在成长期一定全力投入入局在其他期要减少投入但是又不能不提前布局这样的策略会比较好。而且进入成熟期之后就需要慢慢退出等衰退期再退就有些晚了。这就是把握事物的规律可能公司干实事的老板不太了解这些但是资本市场对这些曲线了如指掌。从这个角度看资本跟技术的深度结合是很有必要的。目前具身智能已经成为国际学术前沿研究方向包括美国国家科学基金会在内的机构都在推动具身智能的发展今年的 IROS将具身智能作为一个很重要的主题提了出来谷歌公司 Everyday Robot 的SayCan已经将机器人和对话模型结合到一起能够让机器人在大型语言模型的帮助下完成一个包含 16 个步骤的长任务。UC 伯克利的 LM Nav 用三个大模型视觉导航模型 ViNG、大型语言模型 GPT-3、视觉语言模型 CLIP教会了机器人在不看地图的情况下按照语言指令到达目的地。2.1 AI数据差异目前的AI是否适合机器人目前的AI训练数据基本来自互联网上数据也可以说的互联网AI更多的是书籍文献、图片音视频等。具身智能是需要移动身体有上肢机械臂下肢机器狗关于移动的这些训练数据还需要进行强化。这就像小孩开始学坐爬走跑跳一样需要不断的尝试。而且小孩发音之前也是先听懂了话但是发音要带动音带震动需要操控肌肉这里就像训练肌肉的把控力度也叫肌肉记忆。机器人比汽车要求控制精度高汽车的传感器是固定的机器人是在移动的。关于收集训练的AI数据需要人去操作模仿机器人移动戴上传感器收集汽车就简单些开车就可以收集。就是说教车开车容易教机器人移动需要自己移动就费力了就像跑步和开车的区别。人形机器人跟人在一个环境所以其移动速度需要跟人匹配不能过快或者过慢而且要考虑人的安全因素。人的生存场景比较多人形机器人的数据就也比较多数据类型和量都很大。这样就需要对人的技能和场景进行拆分例如倒水人要用到眼睛和手的触觉首先让机器人有这两个传感器然后就是大量数据和场景下的训练这个模型训练好一个机器人学会了倒水那么这个模块就可以以数据的形式保存下来以后其他的机器人集成进去就也会倒水了跟我们人类不一样其可以永生而且生而知之不用再学习了。但是第一次开始训练技能改进算法的时候还是比较困难估计国外已经在路上了有理想不差钱国内还在跟风中总之要造一个人还是比较难的。其实人类的一切先进的技术都有往新造一个人的技术趋势上发展例如医学、计算机等甚至武器也是摧毁人的都是跟人相关的技术才最核心。目前在酒店或者饭店车站都有类似的双足机器人都是一些落地场景但是其可能并没有用上大语言模型等拥有很多自主能力算法下限还需要提高。2.2 基础设施差异另外基础设施上机器人在端侧需要更强大的算力芯片也就是推理芯片在服务器端的训练则需要更多的算力也需要硬件NPU、GPU等的进步甚至量子计算的辅助。目前因为技术参差不齐落地场景不够明确就像一个玩具。国外的技术先进些已经开始落地一些清洁机器人做饭机器人等。其实完全人形的机器人什么功能都有有时候比较多余就像我们的PC跟嵌入式专业电脑一样PC里大部分硬件平时不一定都用的上但是大家资源富足的时候都用上了PC。工厂里面的机械臂是规划好的路径去工作不是智能。需要自主去判断决策才可以现在很多商业演示的机器人其实都是固定路径或者背后有人去控制的就是说是假的但是很震撼。这种商业演示可以看做一个热度调研很多时候都是还没做只是demo演示如果资本看好有做的必要进行了投资才会大力研发目前来看资本很看好。3. AI机器人能力的挑战场景上划分为通用场景和专用场景。从功能上划分为感知、决策、执行。感知上的挑战处理没见过的物体处理没经历过的场景人机交互的挑战决策上的挑战长任务规划和处理多任务处理失败重新规划能力行动规划能力执行上的挑战上肢的动作下肢走路或者底座等面对这些挑战需要使用技术去解决。例如多模态的感知大数据LLM以及模仿学习等。3.1 基础模型对于机器人的学习需要各种各样的输入最后造一个适合所有机器人的非常大的模型叫基础模型可以理解使用这个基础模型作为机器人的出厂版本生而知之。有了基础模型学校教育后专业的场景刚进入企业工作再针对的训练下然后就可以上岗边干边学了。但是这个基础模型的训练需要针对各种场景需要经历一个漫长的时期就像一个人从小孩长大掌握各种技能需要数十年的时间。模型不准确的挑战可能会伤到人。数据搜集可以穿上传感器一边工作一边收集数据让去学习甚至让机器自己去行动自己去训练自我进步。3.2 多学科融合全面认识人工智能之所以困难是有客观原因的。人工智能是一个非常广泛的领域。当前人工智能涵盖很多大的学科可以归纳为六个1计算机视觉暂且把模式识别图像处理等问题归入其中、2自然语言理解与交流暂且把语音识别、合成归入其中包括对话、3认知与推理包含各种物理和社会常识、4机器人学机械、控制、设计、运动规划、任务规划等、5博弈与伦理多代理人agents的交互、对抗与合作机器人与社会融合等议题。6机器学习各种统计的建模、分析工具和计算的方法这些领域目前还比较散目前它们正在交叉发展走向统一的过程中。我把它们通俗称作“战国六雄”中国历史本来是“战国七雄”我这里为了省事把两个小一点的领域博弈与伦理合并了伦理本身就是博弈的种种平衡态。最终目标是希望形成一个完整的科学体系从目前闹哄哄的工程实践变成一门真正的科学Science of Intelligence。人工智能作为一个含义甚广的领域当然在这里只用简单理解其核心内涵通过机器学习、深度学习、强化学习等学习方法辅助人类洞察数据背后隐藏的模式超越人类在诸多特定任务的能力赋予智能体自主学习、进化的理论范式。近十年来计算机视觉、自然语言处理等技术已经在图像识别、语音处理等任务有爆炸性的发展方方面面的集成应用也早已经融入平常百姓家的日常生活。可是具有物理实体、能够与真实世界进行多模态交互像人类一样感知和理解环境并通过自主学习出色完成复杂任务的智能体仍没有跳出科幻电影的剧本拥入现实世界的怀抱。我们目前看到的还是一些玩具化的人形机器人迈着呆板的步伐做着看起来simple and easy的展示性任务其实是很不容易的诚然想达到Boston Dynamics那样令人瞠目结舌的运动能力需要极其先进的底层控制和硬件支撑这还得仰仗国内学术、工业界共同的努力。一个有灵魂的机器人/仿真人被制造出来磕磕碰碰地生活在人类世界在此过程中碰撞出爱情、友情、亲情……相信你对这个剧本并不陌生匹诺曹、剪刀手爱德华、银翼杀手等作品都已精彩演绎。3.3 多模态挑战具身智能模型关于环境感知关于数据集关于模仿学习的行为克隆关于泛化能力3.4 数据金字塔后记一般国内比硅谷的技术趋势慢一两年但是新的技术基本在校的硕博都在做一般也拼不过那些人但是目前手头里的工作可能5-10年后就被淘汰了不过新技术也不是人人都是科学家设计师需要大量从业人员去实施搬砖。对于我们普通人来说同样是搬砖那就去搬风口的砖慢慢转技术方向不断学习。“啥都懂一点啥都不精通干啥都能干干啥啥不是专业入门劝退堪称程序员杂家”。欢迎各位有自己公众号的留言申请转载纯干货持续更新欢迎分享给朋友、点赞、收藏、在看、划线和评论交流公众号“那路谈OS与SoC嵌入式软件”欢迎关注个人文章汇总https://thatway1989.github.io