Ai技术资讯 -

集成ChatGPT-4V，最有“人味儿”机器人Ameca模仿马斯克讲故事

By 51ITO
Mar 25, 2024 - 2 min read

一个人形机器，操着一口流利的美式英语，用埃隆·马斯克的声音与口吻讲述着机器人火箭飞船飞往火星发现钚的故事，它抑扬顿挫、声情并茂，不禁让人恍惚，它真的只是个机器吗？

这个人形机器就是英国公司Engineered Arts在2024年世界移动通信大会上展示的Ameca第二代人形机器人。这款机器人不仅继承了第一代Ameca的逼真面部表情，还能用自然的语调与人流畅对话，表情和肢体动作都和谐丰富，不少与会人员惊叹：“它是不是已经有了独立意识？”。

当然，Ameca并不具有独立意识，支持它如此“有人味儿”的是机器人操作系统 Tritium 、工程艺术系统Mesmer、视觉系统、声音克隆技术以及ChatGPT-4V等一系列技术。

一、机器人操作系统与工程艺术系统，赋予Ameca人的动作与表情

在言语表达、表情动作方面，英国Engineered Arts公司的Ameca机器人号称世界上较先进的人形机器人，它不仅能够与人进行对话，还有着极其丰富的表情，甚至有着细致的动作和微表情，就像是一个真正的人类一样。Ameca 结合了 AI 与 AB（Artificial Body）技术，底层系统是机器人操作系统 Tritium 和工程艺术系统 Mesmer。

一方面，Mesmer技术通过高精度的3D扫描，捕捉真人的内部骨骼结构、皮肤纹理和面部表情。这种技术的应用，使得Ameca不仅在外观上高度仿真，更在动作和表情上达到了令人难以置信的真实度。通过Mesmer技术，Ameca能够模拟人类的动作和表情，从而在与人类互动时提供更加自然和真实的体验。

另一方面，Tritium操作系统作为Ameca的控制平台，负责驱动机器人的每一个硬件组件。Tritium 可以直接在浏览器运行，适用几乎任何编码语言和多种软件，登录后即可快速处理各种数据，远程控制机器人面部、头颈、四肢等的各方面组件，使得机器人适应环境的突然变化并即时做出响应，保证人机交互的安全和乐趣。

二、视觉系统和声音克隆技术，让Ameca看得见、说得出

Ameca第二代配备的先进视觉系统，使其能够识别和跟踪周围的环境和人物。这种视觉能力的提升，让Ameca能够更好地与人类互动，理解周围发生的事情，并作出相应的反应。例如，它可以通过视觉识别来区分不同的人脸，甚至能够识别人类的情绪状态。

此外，Ameca还加入了声音克隆技术，它不仅能够模仿人类的声音，还能够复制特定的语调和口音，使得交流更加自然和亲切。这项技术的应用，让Ameca在进行语音交互时，能够更加贴近人类的交流方式。

在Engineered Arts 发布的Ameca最新视频中，Ameca清楚地描述了屋内的陈设，能够准确地分辨出工作人员手中的物体，还用摩根·费力曼、马斯克甚至海绵宝宝的声音与工作人员交流。

三、集成ChatGPT-4V，Ameca嘲讽技能拉满

Ameca第二代还集成了ChatGPT-4V，这是一个强大的人工智能对话系统，使得Ameca不仅能够进行流畅的对话，还能够在交流中加入幽默元素，甚至进行自我调侃。

在Engineered Arts 发布的Ameca最新视频中，当被问到“过得如何”时，Ameca自嘲道“勉强活着吧”。随后，Ameca在描述屋子里的陈设时，还调侃道到“架子上摆着书，是对知识的渴望还是只是为了炫耀？一张桌子、一把椅子，这是人类用来提高效率的设施还是拖延的工具，这里还看不出来。”当Ameca用海绵宝宝的声音模仿特朗普演讲，说出“没有人比我更懂机器人火箭飞船”时，它似乎已经是一个具有独立意识的人，而非按“程序”就班的机器人。

其实，早在2022年9月，Ameca就整合了GPT-3技术和自动语音识别，能够接收研究人员的问题，并通过在线语音合成技术，以类似真人的声音实现实时的问答效果。2023年3月，Ameca又升级至GPT-4，她的交互能力显著提升，变得更加贴近人类的情感。2023年4月她掌握了包括英语、日语、德语、中文和法语在内的多种语言。2023年7月Ameca又亲自上阵，完成现场作画。作画完毕后，Ameca 询问人类工程师这幅作品如何，得到的回应是“有点潦草”。不料，这位机器人“画家”眉头一皱，话锋一转：“如果你不喜欢我的画，那可能是因为你不懂艺术。”

结语

随着Ameca第二代人形机器人在2024年世界移动通信大会上的亮相，我们得以窥见未来人机交互的无限可能。Ameca不仅仅是一个技术展示，它预示着一个新时代的到来，其中人工智能和机器人技术将更加深入地融入我们的日常生活。当然，Ameca及其同类机器人的发展也将推动我们重新思考人与机器的关系，探索共生共存的新途径。