OpenAI 推出可自我核实事实的模型 o1

ChatGPT制造商 OpenAI 宣布了下一个主要产品发布:代号为 Strawberry 的生成式 AI 模型,正式名称为 OpenAI o1。

更准确地说,o1 实际上是一系列模型。周四,ChatGPT 和 OpenAI 的 API 中将提供两个模型:o1-preview 和 o1-mini,后者是一个更小、更高效的模型,旨在生成代码。

您必须订阅 ChatGPT Plus或Team才能在 ChatGPT 客户端中看到 o1。企业和教育用户将于下周初获得访问权限。

请注意,o1 聊天机器人体验目前相当简陋。与 o1 的前身GPT-4o 不同,o1 尚无法浏览网页或分析文件。该模型确实具有图像分析功能,但这些功能已被禁用,等待进一步测试。而且 o1 有速率限制;目前 o1-preview 的每周限制为 30 条消息,o1-mini 的每周限制为 50 条消息。

另一个缺点是,o1 很昂贵。非常昂贵。在 API 中,o1-preview 每 100 万个输入令牌收费 15 美元,每 100 万个输出令牌收费 60 美元。与 GPT-4o 相比,输入成本是其 3 倍,输出成本是其 4 倍。(令牌是原始数据的比特;100 万个令牌相当于大约 75 万个单词。)

OpenAI 表示计划向 ChatGPT 的所有免费用户提供 o1-mini 访问权限,但尚未确定发布日期。我们将要求该公司遵守这一规定。

推理链

OpenAI o1 避免了一些通常会绊倒生成式 AI 模型的推理陷阱,因为它可以通过花更多时间考虑问题的各个部分来有效地自我核实事实。OpenAI 表示,o1 与其他生成式 AI 模型的“感觉”质量不同之处在于,它能够在回答问题之前“思考”。

当有更多时间“思考”时,o1 可以全面推理一项任务——提前规划并在较长时间内执行一系列操作,帮助模型得出答案。这使得 o1 非常适合需要综合多个子任务结果的任务,例如检测律师收件箱中的特权电子邮件或集思广益制定产品营销策略。

OpenAI 研究科学家 Noam Brown 周四在 X 上发布了一系列帖子,称“o1 接受了强化学习训练”。他表示,这教会系统“在通过私人思维链做出反应之前‘思考’”,当 o1 答对时给予奖励,答错时则受到惩罚。

布朗补充说,OpenAI 使用了一种新的优化算法和训练数据集,其中包含专门针对推理任务的“推理数据”和科学文献。“[o1] 思考的时间越长,它做得就越好,”他说。

OpenAI o1
图片来源: OpenAI

TechCrunch 在 o1 首次亮相之前没有机会对其进行测试;我们会尽快试用。但据一位确实有权限的人——汤森路透副总裁 Pablo Arredondo 称,在分析法律摘要和确定 LSAT 逻辑游戏中问题的解决方案等方面,o1 比 OpenAI 之前的模型(例如 GPT-4o)更好。

“我们发现它可以处理更实质性、更多方面的分析,”Arredondo 告诉 TechCrunch。“我们的自动化测试还表明,它在处理一系列简单任务时都有所进步。”

OpenAI 表示,在国际数学奥林匹克 (IMO)(一项高中数学竞赛)的资格考试中,o1 正确解答了 83% 的题目,而 GPT-4o 仅解答了 13%。 (考虑到谷歌 DeepMind 最近的人工智能在相当于实际 IMO 竞赛的比赛中获得了银牌,这一成绩就没那么令人印象深刻了。)OpenAI 还表示,在在线编程挑战赛 Codeforces 中,o1 达到了参与者的第 89 个百分位——比 DeepMind 的旗舰系统AlphaCode 2更好,值得一提。

OpenAI o1
图片来源: OpenAI

OpenAI 表示,总体而言,o1 在数据分析、科学和编码问题上应该表现得更好。(GitHub 使用其 AI 编码助手GitHub Copilot测试了 o1 ,报告称该模型擅长优化算法和应用程序代码。)而且,至少根据 OpenAI 的基准测试,o1 在多语言技能方面比 GPT-4o 有所提高,尤其是在阿拉伯语和韩语等语言方面。

沃顿商学院管理学教授伊桑·莫里克在个人博客上发d表了使用 o1 一个月后的感受。他说,在一场颇具挑战性的填字游戏中,o1 表现不错——所有答案都正确(尽管出现了幻觉,出现了新的线索)。

OpenAI o1 并不完美

现在,存在一些缺点。

OpenAI o1可能比其他模型慢,具体取决于查询。Arredondo 表示,o1 可能需要 10 秒以上才能回答某些问题;它通过显示当前正在执行的子任务的标签来显示其进度。

鉴于生成式人工智能模型的不可预测性,o1 可能还存在其他缺陷和局限性。例如,布朗承认,o1 有时会在井字游戏中出错。OpenAI 在一篇技术论文中表示,它从测试人员那里听到了一些轶事反馈,即 o1 比 GPT-4o容易产生幻觉(即自信地编造东西)——而且当它没有问题的答案时,它很少承认。

“错误和幻觉仍然会发生(o1),”莫里克在他的帖子中写道。“它仍然不是完美无缺的。”

毫无疑问,我们会及时了解更多有关各种问题的信息,并有机会亲自面对困难。

暂无评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

版权信息 © 2024 本站资源收集于网络仅供用于学习和交流,本站一切资源不代表本站立场,如有侵权,请联系本站删除处理!