GPT-5:我们期待看到的4个新功能
尽管我们不知道GPT-5何时发布,但是我们依然可以期待一下GPT-5的新功能。
OpenAI的GPT-4目前是市场上最好的生成式AI工具,但这并不意味着我们不展望未来。随着OpenAI首席执行官Sam Altman定期暗示GPT-5的信息,似乎我们不久将会看到一个新的、升级版的AI模型。
至少,这是我们所希望的。GPT-5没有具体的发布日期,我们所认为我们知道的大部分信息都是通过拼接其他信息来推测的。
不过,不管发布日期是什么时候,有几个关键功能是我们希望在GPT-5发布时看到的。
OpenAI的GPT-5是什么?
GPT-5是OpenAI的GPT-4 AI模型备受期待的继任者,有望成为市场上最强大的生成式模型。目前GPT-5还没有官方发布日期,但有迹象表明它可能最早在2024年夏天发布。目前关于这个模型的细节知之甚少,但有几件事可以相当确定地说:
1.OpenAI已经向美国专利商标局申请了这个名字的商标。
2.几位OpenAI的高管已经讨论或暗示了模型可能具备的能力。
3.OpenAI首席执行官Sam Altman在2024年3月的一次YouTube采访中与Lex Fridman反复提到了这个模型。
这些都指向了一个令人兴奋的现实:GPT-5即将到来!也就是说,目前很多东西还是猜测。但有几件事我们希望看到,并且相当确信会在模型中看到。以下是其中的一些:
更多模态性
GPT系列AI模型最令人兴奋的改进之一就是多模态性。多模态性是指AI模型不仅能处理文本,还能处理其他类型的输入,如图像、音频和视频。多模态性将是GPT系列模型未来发展的重要进步基准。
GPT-4已经擅长处理图像输入和输出,改进音频和视频处理将是OpenAI的下一个里程碑,GPT-5是一个很好的起点。谷歌已经在其Gemini AI模型上取得了这方面的重大进展。如果OpenAI不做出回应,不太符合OpenAI团队的性格。但当然,笔者也只是一种猜测。在他的Unconfuse Me播客中,比尔·盖茨问OpenAI首席执行官Sam Altman预计GPT系列在未来两年内会有哪些里程碑。他的第一个回答?视频处理。
所以,对于GPT-5,我们希望能玩转视频——上传视频作为提示,随时随地创建视频,用文本提示编辑视频,从视频中提取片段,以及在大型视频文件中找到特定场景。我们希望能对音频文件做类似的事情。这是一个很大的要求,是的。但鉴于AI发展的速度,这是一个非常合理的期望。
更大且更高效的上下文窗口
尽管GPT系列AI模型是市场上最复杂的AI模型之一,但它们的上下文窗口却是最小的。例如,Anthropic的Claude 3拥有20万个令牌的上下文窗口,而谷歌的Gemini可以处理惊人的100万个令牌(标准使用为128,000个)。相比之下,GPT-4的上下文窗口相对较小,只有128,000个令牌,大约32,000个令牌或更少的实际可用性适用于像ChatGPT这样的界面。
随着先进的多模态性的出现,改进的上下文窗口几乎是不可避免的。也许增加两倍或四倍就足够了,但我们希望看到一个十倍的增长。这将允许GPT-5以更有效的方式处理更多的信息。现在,更大的上下文窗口并不总是意味着更好。所以,我们希望看到的不仅仅是增加上下文窗口的大小,而是上下文处理效率的提高。
你看,一个模型可能有一个一百万个令牌的上下文窗口(大约70万字的容量),但当被要求总结一本50万字的书时,它可能无法产生一个全面的摘要,因为它无法充分处理整个上下文,尽管理论上它有能力这样做。你能读一本50万字的书,并不意味着你能记住其中的一切或合理地处理它。
GPT代理
GPT-5发布可能带来的最令人兴奋的可能性之一是GPT代理的首次亮相。虽然“游戏规则改变者”这个词在AI领域可能已经被过度使用,但GPT代理在每一个实际意义上都将是游戏规则改变者。
但这种情况有多具有变革性呢?
目前,像GPT-4这样的AI模型可以帮助你完成任务。它们可以帮你写一封电子邮件,讲一个笑话,解决一个数学问题,或者为你起草一篇博客文章。然而,它们只能做那个特定的任务,不能完成你的工作所必需的一系列相关任务。
假设你是一个网页开发者。作为你的工作的一部分,你需要做很多事情:设计、编写代码、故障排除等等。目前,你一次只能将这些任务的一部分委托给AI模型。也许你可以要求GPT-4模型为首页编写代码,然后为联系页面编写代码,然后为关于页面等等。你需要迭代地完成这些任务。还有一些任务模型根本无法完成。
这种针对特定子任务的AI模型的迭代提示过程既耗时又低效。在这种情况下,你——网页开发者——是负责协调和提示AI模型一次完成一个任务的人类代理,直到你完成一整套相关任务。
GPT代理承诺由GPT-5协调的专门专家机器人,能够自主地自我提示并自主处理复杂任务的所有子集。强调“自我提示”和“自主”。
所以,如果GPT-5带有GPT代理发布,你可以要求它“为Maxwell Timothy建立一个作品集网站”,而不仅仅是“为我编写首页代码”。理论上,GPT-5将能够通过调用专家AI代理来处理构建网站所需的各种子任务,而无需重复人类的提示。它可能会调用一个GPT来为Maxwell Timothy搜集网页信息,另一个代理来为不同页面编写代码,另一个代理来生成和优化图像,甚至另一个AI代理来部署网站,所有这些都不需要重复人类的提示。
减少幻觉
尽管OpenAI在其AI模型中处理幻觉方面已经取得了长足的进步,但GPT-5的真正试金石将是其解决持续存在的幻觉问题的能力,这个问题阻碍了AI在医疗保健、航空和网络安全等高风险、安全关键领域的广泛应用。这些都是将从AI的深度参与中获益匪浅的领域,但目前避免任何重大采用。
为了清晰起见,这里的幻觉指的是AI模型生成并呈现听起来合理但完全捏造的信息,并带有高度自信的情况。
想象一下,GPT-4被集成到一个分析患者症状和医疗报告的诊断系统中。幻觉可能导致AI自信地提供错误的诊断或基于想象的事实和错误的逻辑推荐一个潜在危险的治疗方案。在医疗领域,这样一个错误的后果可能是灾难性的。
类似的保留意见适用于其他高后果领域,如航空、核能、海事运营和网络安全。我们不期望GPT-5完全解决幻觉问题,但我们期望它能显著减少幻觉产生的可能性。
当我们热切期待这个备受期待的AI模型的正式发布时,有一件事是肯定的:GPT-5有潜力重新定义人工智能的可能性边界,开启一个人机协作和创新的新时代。
原文标题:GPT-5: 4 New Features We Want to See
原文作者:MAXWELL TIMOTHY