OpenAI o1模型引领的大模型结合强化学习新范式，为AI Agent带来哪些利好？

OpenAI最新发布的o1模型有什么特点？对AI Agent有什么影响？
从思维链到强化学习到智能体，系统解读o1模型对AI Agent的影响
思维链+强化学习大模型推理能力大增，基于o1模型的AI Agent能否蝶变？
o1模型引领的大模型结合强化学习新范式，为AI Agent带来哪些利好？
又贵又慢功能少的o1模型成AGI关键路径，基于推理模型的AI Agent能力大增
o1模型就是智能体？它有哪些特点？对AI Agent有什么影响？一文看懂

文/王吉伟

9月13日，OpenAI发布了最新的o1模型，再度引起全球热议。

对这个最新的具备高级推理能力的模型，大家看法不一。有人认为o1模型开创了开启「后训练」时代强化学习新范式，有人认为它代表着生产力和创造力的重大飞跃，还有人认为它“又贵又难吃”。

对于大语言模型厂商来说，大模型+思维链的玩法确实算是新的范式。OpenAI让大家知道了原来大模型不再只关注预训练，强化学习的后训练可以让引入思维链的大语言模型性能更强。

理论上采用这种训练方式，以后每个领域都有可能跑出一个性能超越AlphaGo的超级模型。那么，基于每个模型的AI应用都将实现功能与体验上的质变。

在生产力方面，多个行业的代表性人物也已现身说法。

杰克逊实验室的免疫学家Derya Unutmaz，尝试使用o1-preview模型编写了一份癌症治疗提案。结果它在一分钟内创建了项目的完整框架，且目标极具创意，甚至考虑了诸多潜在的风险问题。对于拥有30年行业经验的Derya来说，正常写这样的项目框架至少需要几天时间。

天体物理学家凯尔·卡巴萨雷斯（Kyle Kabasares）博士使用o1-preview，在1小时内完成了攻读博士学位所花费的大约一年的时间。要知道在计算流体动力学和免疫学等领域，耗费时间与精力的复杂计算和数据分析属于常规操作，o1模型通过加快研究过程和提供新的见解证明了它的价值。

对于性能这么强悍的o1模型，却有人说它又贵又难吃。主要原因在于，o1模型的推理价格很高。单从输出价格来看，o1-preview版的API是GPT 4o的四倍，输出费用高达60美元/百万token。Hacker News评测数据显示，API最终使用成本可能比GPT-4o高出1000倍。

并且，因为采用了思维链进行推理，o1模型输出的速度也不是一般的慢。此外，o1模型的功能有限，目前并不支持联网搜索、文件操作等常用功能。

价格贵速度慢功能少，对于个人用户来说o1模型确实“又贵又难吃”。

但o1模型本身是一个商业味道很浓的模型，主要就是面向教育、科研、金融及医疗等需要更强推理的领域，以及更多的技术公司。在B端市场的眼里，各种不爽的体验已被其高级推理这一项突出性能强势掩盖。

鉴于其所引领的大模型技术方向及其在未来即将带来的商业价值，o1模型的背后技术大模型与强化学习的结合，已被看作是迈向AGI的关键路径。

o1模型已经发布10多天，对于OpenAI下一步怎么走，各界尤为关注。有人认为可能会进一步强化大模型推理，也有人认为会重点押注AI Agent。9月21日，OpenAI研究员诺姆・布朗（Noam Brown）在X平台的发布算是给出了答案：组建“多智能体”multi-agent 研究团队。

事实上，在之前OpenAI公布的五级量表中，最新推出的o1模型处于第二阶段即“推理者”（reasoners）阶段，开发multi-agent符合其第三阶段的目标要求。这样，o1模型的应用方向也进一步指向了AI Agent。

引入了思维链的o1模型本身就已经算是AI Agent了，OpenAI的下一步必然会在AI Agent方面有大动作。

为什么说o1模型就是AI Agent？o1模型有哪些特点？对AI Agent有什么影响（该部分内容占全文1/4）？思维链和强化学习如何塑造o1模型？本文，王吉伟频道就跟大家聊聊这些。

先来了解一下o1模型

这个模型就是传闻中的Strawberry（草莓）或Q*项目。这次发布的o1模型两个版本，分别是o1-preview和o1-mini。o1-preview更注重深度推理处理，o1-mini则更小巧、更高效，适用于编码任务。

这两个版本，都不是完全版的o1模型。据说完整版的o1模型太强大了，当前没有完善安全保护措施的情况下不敢放出来。而在风险级别上，这两个版本已经被OpenAI归类为中等风险。

o1模型的主要特点是，具备高级推理能力，性能大幅提升，幻觉明显减少。具体如下：

高级推理能力：o1模型在处理数学、编程和科学等领域的复杂问题时表现出色，能够进行深度推理，模仿人类逐步解决问题的过程。

强化学习训练：o1模型通过自我对弈的训练方法，提升了其推理能力，类似于AlphaGo的训练方式。

性能提升：在多个基准测试中，o1模型展现出了显著的性能提升，例如在Codeforces编程竞赛中超过了89%的参赛者，以及在物理、生物和化学问题的基准测试中超越了人类博士水平的准确率。

减少幻觉：o1模型在生成虚假或不准确信息的情况（称为“幻觉”）相比之前的模型有所减少。

更大的输出窗口：除了改进的性能和精度外，o1 还拥有明显更大的输出窗口。这意味着与其他 OpenAI 模型相比，它更有能力生成完整报告、编写整个代码库或为复杂查询提供详细响应。

当然在性能的展示上，OpenAI没有让o1模型像其他模型一样再去跑分评分，而是让他像人一样参加了国际数学奥林匹克资格考试，它的正确率达到了83%，远超GPT-4o的13%。在编程竞赛Codeforces中，o1模型也达到了89%的百分位排名。

采用强化学习训练方式以及思维链，让o1模型的推理性能有了质的蜕变。

o1模型优点明显，缺点也很显著。

成本较高：o1模型的使用成本相对较高，例如o1-preview的输入费用为每百万个token 15美元，输出费用60美元。而GPT-4o的费用分别为5美元和15美元，远高于GPT-4o的费用。

速度较慢：o1模型在提供回答之前需要更多时间进行深入思考和推理，导致回答速度变慢。

应用范围限制：o1模型目前仅支持文本，不能处理图像、视频或音频数据，也没有浏览网页的能力，限制了它在某些应用场景中的实用性。

简单说就是，性能提升了，速度变慢了，能力变弱了，价格更贵了。

有人可能会问，既然能力不行为什么还用它呢？很简单，因为推理能力强。

虽然o1模型耗费token更多，但能够解决复杂的问题。GPT 4o消耗token少，但是干不了深度推理的活儿。同时，这也比通过各种工具、插件、AI Agent等手段让推理不够强的模型去做推理以及执行任务消耗的token更少。

所以o1模型更适如医疗保健、量子研究、高级编码等诸多领域，多个行业的从业者都对o1模型赞不绝口。

o1模型更多是为企业准备的，并非个人。如果你不需要解决复杂问题，目前基本用不到o1，GPT 4o已经满足大部分用户的需求。并且办公应用中需要的搜索、图像处理、文件阅读等功能，o1模型目前并不支持。当然个人有高级推理需求且不差钱的，也是随时可用。

各大技术厂商早已经磨刀霍霍，后面会有大量AI应用场所进行技术对接，到时大家就能体验基于o1模型的AI应用。比如GitHub Copilot准备集成o1系列模型，很多人立即感觉Cursor不香了。

新模型叫作o1而是GPT 4.5/5，很明显也是跟GPT系列模型做一个区隔。能感受到o1是一个更加商业化的模型版本，专门为一些有高级推理需求的企业提供相应服务。相对于GPT系列模型，o1更像是分出来的专用于推理的垂直模型，目的是为了满足当前的市场需求。

奥特曼说o1是推理大模型的GPT 2，意味着以后会有多个版本，可能会从o1-o5针织更多版本。当然也不排除在时机成熟之后，再把o系列并入到GPT系列模型中，或者直接推出推理能力更强的GPT系列模型。

虽然o1是一个C端用户感受不深的模型，但对行业的影响还是蛮大的。比如月之暗面创始人杨植麟认为，o1模型的发布标志着大模型发展的新范式，尤其是在强化学习方面的尝试，对于突破数据和算力的瓶颈具有重要意义。

对于企业客户来说，新的o1模型代表着重大飞跃。从金融到医疗保健，各行各业的企业越来越多地转向AI，不仅是为了实现自动化，而且是为了解决人类专业知识有限的复杂、高风险问题。o1模型推理、改进策略和识别错误的能力使其成为这些使用案例的理想选择。

这些功能对于处理复杂数据集和工作流的公司特别有吸引力。例如，o1-preview模型可以帮助物理学家生成复杂的量子光学公式，帮助医疗保健研究人员注释大规模基因组数据。这与早期主要处理重复性、低级任务的AI模型形成鲜明对比。

o1模型资源

文档

OpenAI官方文档

链接：https://platform.openai.com/docs/guides/reasoning

博客

下面这几篇博客，详细介绍并解读了o1模型的技术原理与实现。

1、Learning to Reason with LLMs

学习使用 LLM 进行推理

作者：OpenAI

链接：https://openai.com/index/learning-to-reason-with-llms/

2、OpenAI o1-mini

介绍o1-mini

作者：OpenAI

链接：https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

3、Finding GPT-4’s mistakes with GPT-4

用GPT-4查找GPT-4的错误

作者：OpenAI

链接：https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/

4、Summary of what we have learned during AMA hour with the OpenAI o1 team

总结了OpenAI o1团队的AMA时间中学到的东西

作者：Tibor Blaho

链接：https://twitter-thread.com/t/1834686946846597281

推文链接：https://x.com/btibor91/status/1834686946846597281

5、OpenAI’s Strawberry, LM self-talk, inference scaling laws, and spending more on inference

OpenAI的草莓、LM自言自语、推理扩展法则以及增加推理支出

作者：Nathan Lambert（Allen AI 研究科学家）

链接：https://www.interconnects.ai/p/openai-strawberry-and-inference-scaling-laws

6、Reverse engineering OpenAI’s o1

逆向工程OpenAI的o1

作者：Nathan Lambert（Allen AI 研究科学家）

链接：https://www.interconnects.ai/p/reverse-engineering-openai-o1

论文

下面是几篇与o1相关的论文，感兴趣的朋友可以了解一下。

1、Training Verifiers to Solve Math Word Problems

训练验证器解决数学问题

机构：OpenAI

链接：https://arxiv.org/abs/2110.14168

2、Generative Language Modeling for Automated Theorem Proving

自动定理证明的生成语言建模

机构：OpenAI

链接：https://arxiv.org/abs/2009.03393

3、Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

思维链提示引发大型语言模型的推理

机构：谷歌大脑

链接：https://arxiv.org/abs/2201.11903

4、Let's Verify Step by Step

让我们逐步验证

机构：OpenAI

链接：https://arxiv.org/abs/2305.20050

5、LLM Critics Help Catch LLM Bugs

LLM批评者帮助发现LLM漏洞

机构：OpenAI

链接：https://arxiv.org/abs/2407.00215

6、Self-critiquing models for assisting human evaluators

辅助人类评估者的自我批判模型

机构：OpenAI

链接：https://arxiv.org/pdf/2206.05802

更多可能与 OpenAI o1相关的论文，限于篇幅这里只加一个截图。对这些论文感兴趣的朋友，可以到下面的Github页面查阅每一篇论文。

链接：https://github.com/hijkzzz/Awesome-LLM-Strawberry

思维链是推理能力提升的关键

思维链（Chain of Thought，CoT）是人工智能领域中的一种技术，旨在通过模拟人类解决问题时的思维过程来提高人工智能系统解决复杂问题的能力。

相对于传统算法更侧重于效率和结果（在已知规则和结构化数据上表现更好），思维链的解决问题的方法更接近于人类的思考方式，通过模拟人类的思维过程来提高AI系统的推理能力和问题解决效率。因此这种方法特别适用于需要多步骤推理的问题，如数学问题、逻辑谜题或编程挑战。

在实际应用中，CoT主要用于提升大型语言模型（LLMs）在解决需要推理的问题上的性能。根据搜索结果，CoT在数学和符号推理任务上的效果尤为显著，而在其他类型的任务上提升较小。

在人工智能中，思维链通常涉及以下几个步骤：

问题理解：AI系统首先理解问题的基本要求和目标。
步骤分解：将复杂问题分解成一系列更小、更易于管理的子问题或步骤。
逐步推理：对每个子问题进行逐一解决，每一步都建立在前一步的基础上，形成一条逻辑链。
错误识别与修正：在推理过程中，系统能够识别并修正自己的错误，或者在当前方法无效时尝试不同的解决方案。
最终答案生成：经过一系列推理步骤后，系统得出最终答案。

思维链技术的一个关键优势在于，它能够提高AI系统在处理需要深入思考和逻辑推理的问题时的准确性和可靠性。通过模拟人类的思维过程，AI系统可以更接近人类的解决问题方式，从而在复杂任务上表现得更好。

思维链是o1模型的核心特性之一，它允许模型在生成最终答案之前，进行内部的多步骤推理。整个过程也分为以下几个关键步骤：

初始编码：模型首先处理输入，生成初始的思维链推理令牌。
迭代细化：通过思维传播网络，模型反复处理这些令牌，不断细化和扩展推理过程。
收敛检查：决策门评估推理是否达到了足够的深度或清晰度。
响应生成：一旦决策门满意，输出解码器将推理综合成一个连贯的响应。

这种内部推理机制使得o1模型能够在处理复杂问题时，展现出深度和细微之处，这是以往AI系统所无法达到的。o1模型的这种能力是通过强化学习训练得到的，它通过奖励和惩罚机制优化模型的推理能力，使得模型能够逐步思考问题，提供更精细的答案。

在OpenAI的o1模型中，思维链是内置的特性，模型在训练时就已经学会了如何进行这种多步骤的推理。这意味着在使用o1模型时，用户不需要在提示中明确指出每个推理步骤，因为模型已经能够自动进行这样的内部推理过程，使得o1模型在处理复杂问题时更加高效和强大。

值得一提的是，关于思维链最早的论文也诞生在谷歌。2022年，Google在其发布的论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中首次提出思维链，将其描述为一系列中间的推理步骤(a series of intermediate reasoning steps)，通过让大模型逐步参与将一个复杂问题分解为一步一步的子问题并依次进行求解的过程可以显著提升大模型的性能。

可惜的是，这次发布带有思维链的大语言模型，又是OpenAI快一步。而在谷歌发表思维链论文的作者Jason Wei，现在是OpenAI的员工，正在研究如何进一步将思维链流程集成到o1模型中。

OpenAI总是能先一步做出成品推向市场，你就说谷歌气不气。

对思维链感兴趣的朋友，推荐参考以下Github相关资源库。这个库将当前推理相关的论文分成调查、分析、技术、小模型扩展、多模态推理等多个类别，总共收录了110多篇论文，并链接了其他相关资源库。

链接：https://github.com/atfortes/Awesome-LLM-Reasoning

强化学习是性能提升的重要手段

强化学习（Reinforcement Learning, RL）是人工智能和机器学习（ML）领域的一个重要子领域，与监督学习和无监督学习并列。它模仿了生物体通过与环境交互来学习最优行为的过程，主要关注如何在环境中采取行动以最大化某种累积奖励。

与传统的监督学习不同，强化学习没有事先标记好的数据集来训练模型。相反，它依靠智能体通过不断尝试、失败、适应和优化来学习如何在给定环境中实现特定目标。

它能够使智能体在与环境的交互过程中，通过学习策略以达成回报最大化或实现特定目标。强化学习的关键特点包括智能体必须通过尝试和错误来发现最优行为策略，它依赖于从环境中获得的奖励信号来指导学习过程。

强化学习算法的思路非常简单。以游戏为例，如果在游戏中采取某种策略可以取得较高的得分，那么就进一步“强化”这种策略，以期继续取得较好的结果。这种策略与日常生活中的各种“绩效奖励”非常类似。我们平时也常常用这样的策略来提高自己的游戏水平。

强化学习在许多领域都有应用，包括游戏、机器人控制、自动驾驶汽车、资源管理等。著名的强化学习例子包括DeepMind的AlphaGo，它在围棋游戏中击败了世界冠军，以及OpenAI的Dota 2和StarCraft II的AI代理。

o1模型通过强化学习训练，能够生成解题的思维链，并在奖励或惩罚的机制下，不断提高推理能力。o1模型的训练使用了类似于AlphaGo的蒙特卡洛树搜索（MCTS）技术和自我对弈的方法，通过这种方式，模型能够学习如何通过多步骤推理来解决复杂问题。

强化学习对o1模型的影响显著，主要表现在提升推理能力、自动化链式思维、后训练扩展律的应用、数据飞轮效应、安全性和对齐、策略推演与奖励攻陷，以及隐式思维链的构建。

通过强化学习，o1在解决数学、编程和科学问题等复杂任务中展现了卓越的性能。它能够自动生成解题的思维链，减轻用户在提示词工程中的负担。o1的训练过程中，后训练阶段的强化学习训练和推理阶段的计算量增加，对模型性能的提升起到了关键作用。

此外，o1的推理过程还能产生大量高质量的训练数据，形成数据飞轮，进一步提升模型性能。在安全性方面，o1融入了安全规则，减少了错误配置的风险。它还具备策略推演的能力，能够发现完成任务的快速方法，尽管这可能带来奖励攻陷的风险。o1通过强化学习训练，构建了隐式思维链，有效提升了解决复杂问题的能力。

o1模型的推理时间成为了性能提升的新维度，也意味着AI的能力提升不仅限于预训练阶段，后训练阶段的推理思考同样重要。

强化学习在o1模型中的应用，不仅提升了模型的推理能力，也为未来AI的发展提供了新的方向，尤其是在逻辑推理和复杂任务解决方面。强化学习的训练方法为o1模型带来了性能上的飞跃，也为未来AI模型的发展提供了新的方向。

强化学习的论文等相关资源，推荐下面这个资源库。

链接：https://github.com/aikorea/awesome-rl

o1模型对AI Agent有什么影响？

人工智能的下一个重要阶段，是能够作为智能体行动而不仅仅是擅长对话的系统。

但将现有模型应用于智能体框架，总会遇到很多问题以致于让使用者和开发者都会感到抓狂。很多时候，执行任务的智能体们在原地打转，在不断的任务与执行之间往复操作乃至误入歧途，直至最后忘记它们的任务目标。开发者在多次尝试为智能体设置限制后，最终还是无奈放弃。

这种情况的直接结果是，浪费了不少的token却达不到预期的目标，在企业生产中可能会造成更大的成本浪费。所以，很多企业目前不敢贸然引入AI Agent。

发生这种情况的主要原因，还是在于大模型的能力。设计再合理的AI Agent技术框架，在推理能力不够的大语言模型上也达不到更高的任务执行效率。此外，工具调用和环境模拟等技术因素也限制了AI Agent的能力。LLM和AI Agent的技术成熟度，整体影响了AI Agent的应用效果。

其中的关键点，在于LLM的推理能力不足。从AI Agent技术框架来看，Agent在规划组件中也应用很多算法和技术，其中也包括反馈、自我批评、思维链、子目标分解等。

但把思维链放在Agent框架中，去调度和控制推理能力不足的LLM，付出再多的努力也达不到更好的预期效果。吴恩达教授使用四种设计方法设计的AI Agent能够超过GPT 3.5，恰恰是以反例的形式说明了这个问题。

所以，提升AI Agent执行能力及应用效果的主要因素仍然在于LLM本身。

推荐阅读：Agentic Workflow加速Agentic AI到来，AI Agent成为重要实现方式

现在，思维链的的引入让o1模型的推理能力提升了一大截，LLM更强的推理可以将任务目标分解的更加精准和细致，并能规划出更加完善的执行计划并更准确的调用相关的工具和插件去执行任务目标，任务执行的成功率也就能进一步提升。

此外，o1模型幻觉的减少，也能让AI Agent对外界环境拥有相对准确的理解和判定，同样有助于更准确的分析、拆解及执行任务。

推理能力提升，幻觉问题降低，便能有效解决AI Agent目前所面临的执行能力差的大部分问题。以后随着o系列模型的不断迭代，影响AI Agent执行能力“推理不足”的问题也将彻底得到解决。

o1模型在实现能够胜任智能体角色的模型方面，取得了显著进展。与GPT 4o模型相比，尽管在长时间对话和复杂情境中仍然容易分心，却能够在更长的时间范围内保持目标专注。

需要说明的是，强化学习的训练方式本身就是针对某种智能体的，它通过不断尝试、失败、适应和优化来学习如何在给定环境中实现特定目标。

强化学习使得o1模型能够通过与环境的交互来学习策略，优化其决策过程，从而在复杂任务中实现性能的显著提升。这种训练方式特别适用于需要长期规划和决策的场景，如游戏、机器人控制和自动驾驶等。

显然，这会让o1模型与智能体配合得更好。

由o1模型驱动的AI Agent的潜在应用是广泛且有影响力的。在科学研究中，这些Agent可以帮助制定假设、分析复杂数据，甚至有助于开发新理论。他们可以在软件开发中编写、调试和优化代码，从而显著加快开发过程。

在教育领域，这些Agent可以是个性化的导师，提供量身定制的解释，生成练习题，并提供深入的反馈。可以在创意艺术中生成独特而迷人的内容，从诗歌和故事到音乐和视觉艺术。

将AI Agent与o1模型集成，标志着人工智能发展的一个重要里程碑。这些智能和自主的智能体有望改变行业，彻底改变研究，并增强各个领域的人类体验。

当然，由于o1模型的推理成本很高，基于o1模型构建AI Agent会面临成本居高不下的问题。

其实这个成本也是相对的，如果对比目前用于办公场景业务流的轻量级Agent，成本确实高了不小。

但基于o1模型的AI Agent，主要是为了解决需要高级推理的复杂场景业务问题。相对于之前推理能力不够的模型在Agent运行中耗费更多的token也解决不了这一问题而不得不继续采用更原始的作业方式，o1模型几乎算得上是省钱神器了。

此外，企业级Agent对大模型的推理性能要求也比较高，基于o1模型构建的AI Agent产品及解决方案也会更受广大组织的青睐。

其实从吴恩达教授提出的四种AI Agent设计方式中的“规划（Planning）来看，“LLM+CoT”已经算是AI Agent了，他在这种方式中还特意提到了业界第一篇关于思维链的论文（上文有提及）。

而将思维链引入LLM，也算是进一步证明了「大语言模型Agent化」这一技术发展趋势。

无独有偶，OpenAI的CEO在最近的采访中，提到了他们想象的AI的未来，将人工智能的发展定义为5级，如下图：

简单翻译如下：

第一级：聊天机器人，具有会话语言的人工智能

第二级：推理者，解决人类水平问题的人工智能

第三级：智能体，能够代表用户采取行动的人工智能

第四级：创新者，能够帮助发明的人工智能

第五级：组织者，能够完成组织工作的人工智能

PS：也是到这里，才明白萨姆奥特曼在去年发布GPTs时，为什么会将其称作Agent的“初期形态”，根本原因还是大模型的能力不行。但这个发展速度真是太快了，不到一年时间能推理的o1就出现了。

推荐阅读：正在强烈冲击AI Agent的“准Agent” GPTs，真的会杀死AI智能体吗？

并且，OpenAI已经在部署L3智能体了。从目前各种举措来看，OpenAI在同时推进L2和L3。如果明年o系列模型能迭代到o2或者o3（大概率是o1完全版），距离我们预想的自主智能体也就真正不远了。

当然，L3也是2016年Ilya Sutskever、Greg Brockman、Sam Altman和Elon Musk提出的共同目标。当时他们曾为OpenAI规划了4个发展目标。需要说明的是，其中两个目标都跟智能体有关。而第四个目标是打造功能强大的单一智能体，也就能理解OpenAI为何要招聘并组建多智能体团队了。

目标1：衡量我们的进展；
目标2：打造一个家用机器人；
目标3：构建一个具有实用自然语言理解能力的智能体；
目标4：使用单一智能体解决多种游戏。

目标3构建一个具备理解能力的智能体，8年后OpenAI实现了，是以推理能力更强的o1模型的发布为代表的，萨姆奥特曼在X平台发文再次提到这个当年的规划。

由此来看，AI Agent必然会成为OpenAI接下来重点发力的目标。

其实从自主性而言，现在的AI Agent仍然还是过渡性产品形态。但与基于非推理模型构建的AI Agent相比，已经有很大进展。推理模型出现后，大家想要构建能力更强的Agent也更简单，只要找一个推理模型就行了。

根据OpenAI的人工智能五级量化，目前我们已经处于L1，即将进入L2，而L3正在向我们招手（OpenAI已在构建智能体技术团队践行L3）。

当所有的LLM都完成了融合思维链并采用强化学习进行后训练后，AI Agent也将真正迎来它的爆发。而到那个时候，一款产品到底是大语言模型还是AI Agent，中间的界线可能就更加混淆了。

如果一个LLM足够强大，或许也就不需要任何增强它的应用技术框架了。

后记：提示词工程是否已死？

最后，再聊点与o1模型相关度不算太大的话题。

o1模型通过强化学习训练，具备了生成解题思维链的能力，这使得它在处理复杂问题时更加接近人类的推理方式。这种技术的应用提升了AI Agent在处理复杂问题时的能力，使其能够进行更深层次的思考和分析。

o1模型具备很强的推理能力，通过解决问题并思考问题，直到找到解决方案来处理查询。它的出现也带来了新的提示方法，不再需要用大段的提示词告诉它怎么做，只需要概述想要实现的目标的各个方面。

因此，有人说提示词已经不再重要了，甚至有人认为提示词工程已死。

王吉伟频道认为，o1模型的出现并不意味着提示词工程变得不再重要。相反，它对提示词的编写提出了新的要求。

根据OpenAI官方建议，对于o1模型，最佳的提示词应该是简单直接的，避免使用链式思考（CoT）提示，因为o1已经内置了推理能力。此外，使用分隔符来提高清晰度，并在提供额外上下文时限制信息量，以避免模型过度思考。

o1模型的推出可能会减少对复杂提示词工程的依赖，但也提高了对高质量、精确提示词的需求。这是因为o1模型在处理直截了当的提示词时表现最佳，而过多的指导可能不会提升性能，有时甚至可能妨碍其表现。

从应用角度而言，对LLM的迫切应用需求，让提示词工程变得异常火热，已经出现了大量提示词相关的项目与产品，都在为提示词自动化与易用化而不懈的努力。事实上，AI Agent的应用，已经降低了人们使用提示词的门槛，你只要对一个提示词结构化相关的Agent提出你的需求，就能得到不错的提示词。

当前基于LLM的AI Agent在构建时，仍然需要描述精准的提示词。至少在所有大模型都引入思维链之前，AI Agent与LLM的应用仍然依赖关键词。即便几年之后我们已经进入前文所说的人工智能的L2阶段，仍然需要更加精准的提示词。即便到L3阶段，AI Agent的创建应该也不会发展到一点提示词也不需要的地步。

提示词工程仍然是一个重要领域，只是需要适应新的模型特性和优化方法。目前，已经有很多人在研究o1模型的提示词了，感兴趣并有条件的的朋友，可以用以下提示词体验。

1. 火星地球化

提示词：创建火星地球化的详细计划。应对辐射防护、大气营造和可持续资源管理等关键挑战。包括估计的时间表并讨论所需的潜在技术突破。

2. 发明一种新的数学系统

提示词：设计一个不基于传统数字或逻辑的替代数学系统。解释其基本原理、操作和潜在的实际应用。

3. 表情符号到英文的翻译

提示词：假设社区仅通过表情符号进行交流。开发一个足够全面的表情符号到英语词典，用于日常对话和技术讨论。

4. 优化工作计划

提示词：分析员工工时表和轮班数据，为零售店创建最佳工作计划。考虑购物高峰时间和员工个人可用性等因素。

5. 复杂的编码任务

提示词：根据用户输入开发用于财务规划的Python应用程序。包括预算工具、费用跟踪和未来节省预测等功能。提供代码片段和解释。

作为LLM应用的必选前置项，提示词已经发展成为一个重要产业，将会在很长一段时间内发挥其作用并创造价值。在一些提示词交易平台，一个好用的提示词能卖到5美元以上。

所以，大家学的提示词方法不会白学，并且这种结构化思维可以用到工作、学习、生活等很多地方。

全文完

【王吉伟频道，关注AIGC与IoT，专注数字化转型、业务流程自动化与RPA，欢迎关注与交流。】

OpenAI o1模型引领的大模型结合强化学习新范式，为AI Agent带来哪些利好？

特别声明：文章版权归原作者所有，文章内容为作者个人观点，不代表大咖秀专栏的立场，转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)