集成ChatGPT-4V,最有“人味儿”机器人Ameca模仿马斯克讲故事
一个人形机器,操着一口流利的美式英语,用埃隆·马斯克的声音与口吻讲述着机器人火箭飞船飞往火星发现钚的故事,它抑扬顿挫、声情并茂,不禁让人恍惚,它真的只是个机器吗?
这个人形机器就是英国公司Engineered Arts在2024年世界移动通信大会上展示的Ameca第二代人形机器人。这款机器人不仅继承了第一代Ameca的逼真面部表情,还能用自然的语调与人流畅对话,表情和肢体动作都和谐丰富,不少与会人员惊叹:“它是不是已经有了独立意识?”。
当然,Ameca并不具有独立意识,支持它如此“有人味儿”的是机器人操作系统 Tritium 、工程艺术系统Mesmer、视觉系统、声音克隆技术以及ChatGPT-4V等一系列技术。
一、机器人操作系统与工程艺术系统,赋予Ameca人的动作与表情
在言语表达、表情动作方面,英国Engineered Arts公司的Ameca机器人号称世界上较先进的人形机器人,它不仅能够与人进行对话,还有着极其丰富的表情,甚至有着细致的动作和微表情,就像是一个真正的人类一样。Ameca 结合了 AI 与 AB(Artificial Body)技术,底层系统是机器人操作系统 Tritium 和工程艺术系统 Mesmer。
一方面,Mesmer技术通过高精度的3D扫描,捕捉真人的内部骨骼结构、皮肤纹理和面部表情。这种技术的应用,使得Ameca不仅在外观上高度仿真,更在动作和表情上达到了令人难以置信的真实度。通过Mesmer技术,Ameca能够模拟人类的动作和表情,从而在与人类互动时提供更加自然和真实的体验。
另一方面,Tritium操作系统作为Ameca的控制平台,负责驱动机器人的每一个硬件组件。Tritium 可以直接在浏览器运行,适用几乎任何编码语言和多种软件,登录后即可快速处理各种数据,远程控制机器人面部、头颈、四肢等的各方面组件,使得机器人适应环境的突然变化并即时做出响应,保证人机交互的安全和乐趣。
二、视觉系统和声音克隆技术,让Ameca看得见、说得出
Ameca第二代配备的先进视觉系统,使其能够识别和跟踪周围的环境和人物。这种视觉能力的提升,让Ameca能够更好地与人类互动,理解周围发生的事情,并作出相应的反应。例如,它可以通过视觉识别来区分不同的人脸,甚至能够识别人类的情绪状态。
此外,Ameca还加入了声音克隆技术,它不仅能够模仿人类的声音,还能够复制特定的语调和口音,使得交流更加自然和亲切。这项技术的应用,让Ameca在进行语音交互时,能够更加贴近人类的交流方式。
在Engineered Arts 发布的Ameca最新视频中,Ameca清楚地描述了屋内的陈设,能够准确地分辨出工作人员手中的物体,还用摩根·费力曼、马斯克甚至海绵宝宝的声音与工作人员交流。
三、集成ChatGPT-4V,Ameca嘲讽技能拉满
Ameca第二代还集成了ChatGPT-4V,这是一个强大的人工智能对话系统,使得Ameca不仅能够进行流畅的对话,还能够在交流中加入幽默元素,甚至进行自我调侃。
在Engineered Arts 发布的Ameca最新视频中,当被问到“过得如何”时,Ameca自嘲道“勉强活着吧”。随后,Ameca在描述屋子里的陈设时,还调侃道到“架子上摆着书,是对知识的渴望还是只是为了炫耀?一张桌子、一把椅子,这是人类用来提高效率的设施还是拖延的工具,这里还看不出来。”当Ameca用海绵宝宝的声音模仿特朗普演讲,说出“没有人比我更懂机器人火箭飞船”时,它似乎已经是一个具有独立意识的人,而非按“程序”就班的机器人。
其实,早在2022年9月,Ameca就整合了GPT-3技术和自动语音识别,能够接收研究人员的问题,并通过在线语音合成技术,以类似真人的声音实现实时的问答效果。2023年3月,Ameca又升级至GPT-4,她的交互能力显著提升,变得更加贴近人类的情感。2023年4月她掌握了包括英语、日语、德语、中文和法语在内的多种语言。2023年7月Ameca又亲自上阵,完成现场作画。作画完毕后,Ameca 询问人类工程师这幅作品如何,得到的回应是“有点潦草”。不料,这位机器人“画家”眉头一皱,话锋一转:“如果你不喜欢我的画,那可能是因为你不懂艺术。”
结语
随着Ameca第二代人形机器人在2024年世界移动通信大会上的亮相,我们得以窥见未来人机交互的无限可能。Ameca不仅仅是一个技术展示,它预示着一个新时代的到来,其中人工智能和机器人技术将更加深入地融入我们的日常生活。当然,Ameca及其同类机器人的发展也将推动我们重新思考人与机器的关系,探索共生共存的新途径。