新闻

OpenAI 也在发力的 AI Agent, 离全能助手还有多远?| 初心海外专栏

2023.11.09

向 ChatGPT 提问“今天我应该干什么”,ChatGPT 自动抓取了日历信息,并排查出和现有安排冲突的日程。然后按照用户的指令,给 OpenAI CEO 发了一条消息,告知自己已有的安排……这是 11 月 7 日,OpenAI 在首届开发者大会上演示的最新功能 GPTs。无需代码,用户仅凭自然语言交互就可以在 ChatGPT 创建贴合自身需求、可以直接帮自己做事的“专属助手”。这也意味着,在开发者圈子火了大半年的概念“AI Agent” 有望迎来出圈时刻。

Agent 直译意为“代理”。顾名思义, AI Agent 就是可以充当代理、直接帮人类去操作某件事情的 AI 工具。3月,一款可以自动执行任务的开源应用程序 AutoGPT 在开发者社区 Github 发布,在开发者圈层掀起了一阵“AI Agent 热”。很快 AutoGPT 的方法论被越来越多的 AI 应用层产品借用。诸如自动订 Pizza、做研究报告、写程序、做外语老师等一系列试图直接帮人类做事儿的自动化 AI 工具或 demo 如雨后春笋般诞生。业内将这类工具的形态和框架称为 AI Agent。

与此同时,AI 大厂也愈加重视 Agent 的底层逻辑。除了开篇提到的自定义ChatGPT,Open AI 首届开发者发布的开发者工具Assistants API 和计划推出的 GPT Store 都是 AI Agent 框架的体现。

AI Agent 的应用效果如何?相关产品的功能实现背后有着怎样的逻辑?未来还有哪些可发展的空间?本文试图从理解 AI Agent 的技术框架开始,结合两款通用类 Agent 工具( AutoGPT、Agent GPT)和三款垂直类 Agent 工具(V0.dev 、React Agent、GPT Researcher ),剖析上述问题。

初心观点

  1. AI Agent 是一种更高级、更接近人类提取知识的路径的方法论,但目前这一方法论的应用水平处在“小学生”阶段。基于现有的大模型基座还有很大的提升空间。

  2. 部分辅助代码开发的垂类 Agent 工具达到 SOTA,但多数垂类工具还不足以为专业人士提供有效帮助。

  3. AI Agent 能力瓶颈的突破解决“ LLM+Agent 能力组件”的工程化问题,解决工程化问题将是未来1-2年的趋势。

  4. 跨越技术鸿沟的时刻渐近,AI Agent 的应用形态也将多种多样。但随着 token 数量级攀升,大模型使用成本仍是难以逾越的门槛。

  5. AI Agent 的创业者应从垂直领域切入,切口越小越有价值。AI 本身没那么聪明,需要更聪明的人类围绕特定领域“定制”它,才能更有效地发挥其价值。

01 AI Agent :一种更接近人类提取知识模式的方法论

AI Agent 或者 LLM Agent 这个概念可以称为“智能体”。目前被业内广泛引用的AI Agent 技术解读主要来自 OpenAI 团队的 Lilian Weng 6月份发布的文章。其中对 AI Agent 的构成要素给出一个较为清晰的公式:

Agent = LLM (大语言模型) + Memory (记忆能力)+ Planning skill (规划能力) + Tool use (工具使用能力)

不难看出,AI Agent 好比给 LLM 这个大脑配备了一组额外技能——其以大语言模型为底座,再叠加特有的记忆能力、规划能力和工具使用能力,从而能更精准地模拟智能体的认知、思考、行动、决策模式。不仅在思考、推理能力上展现出更加智能的样貌,还能像真正的智能体一样执行相应的动作。

这和当前大多 AI 层应用的发展范式类似:基于 LLM 的编程接口(API),叠加特有的数据、逻辑和能力。从这个角度来看 AI 应用 = AI Agent。这也是为什么在初心的 AI 趋势报告中,我们提出 LLM 是未来 AI 操作系统的底座,而 Agent 是这个操作系统的应用。而 Open AI 推出的GPTs 功能和计划中的 GPT Store 也侧面印证了这一观点,未来的 AI 应用层的生态很可能就是 Agent 版本的App Store。

下面我们从 Agent 的几个能力组件来看看,为什么叠加了这些能力的 LLM 会变得更加智能。

1. Planning 任务规划能力

根据认知学「双过程(dual process)」模型,人脑进行决策时有两种模式:一种是快速、自动、无意识的系统1(System 1),另一种是缓慢、深思熟虑、有意识的系统2(System 2)。类比来看,系统 1 在某种意义上可以理解为直接使用 LLM,而 AI Agent 就是尝试让 LLM 能够在系统 2 下运行。

思维推理路径是 LLM 能否更靠近系统 2 的关键。就像人类解决很多问题的时候需要逐步思考一样, LLM 的思维推理路径也愈加“缜密”:从简单的输入-输出( IO,Input-Output)模式多步迭代到思维链(COT, Chain of Thought)、自洽性思维链(COT-SC, Chain of Thought-Self Consistency)、思维树(TOT,Tree of Thought )、思维图(GOT, Graph of Thought)等路径。

这些路径的核心区别在于思考链路的“缜密”程度。比如,思维链是把一个问题的解决过程拆分成几个步骤,逐步解决;以此为基础的自洽性思维链则增加了发散环节,当思维链路径给出错误的答案时,会发散出其他正确的解法。思维树路径更进一步,不仅把大问题拆分成若干个步骤,还会把每个步骤都拆分成若干子问题。就像一棵树,枝节不断分叉,越长越茂密。

对于大模型来说,培育这样“一棵树”需要用到的就是任务规划能力 (Planning Skills)。如 Lilian Weng 的文章所述,把一个大目标分解成更小、更易管理的子目标,从而能处理复杂的任务。

2. Memory 记忆机制

通常来说,一个不擅长规划的人可以运用记忆机制把外部经验内化成自身能力的一部分。大模型亦然,记忆机制可以让它在此前构建的数据库(Record DB)中快速检索“经验”。当它面对一组有些“摸不着头脑”的提示词(Prompt)时,动用记忆机制调取和提示词相关背景文本,可以更好地理解任务,拆分、执行任务。

记忆又有短期记忆和长期记忆之分。短期记忆能让大模型学习提示词的上下文;长期记忆则是一种长期保留和调用无限信息的能力。两类记忆结合,不仅能让大模型更好地基于通用知识理解上下文,也能基于用户使用工具的历史记录,生成个性化的记忆。好比一个垂直领域的从业者,工作时间越长,可调用的个人经验就越丰富。

3. Tool use 工具使用

在 Agent 框架下,规划能力使大模型把一个大目标拆分成若干小任务,而最终执行这些任务还需要动用工具使用能力。LLM 基于选择的工具调用 API,再按照提示词(Prompt)的数据结构返回数据,最后将用户的问题和答案放进来,才完成了提出需求到响应需求的闭环。

11 月 7 日的 Open AI 开发者大会推出的 Assistants API 即是为大模型赋予工具使用能力的典型。Assistants API 配备了代码解释器、检索以及函数调用等工具,开发者可以调用它执行特定指令、读取额外的知识库、调用模型和工具完成任务。

02 AI Agent 应用观察

今年 3 月,AutoGPT 在开发者社区 Github 发布,掀起 IT 界对 Agent 的关注。很快 AI Agent的框架和应用形态蔓延开来。下面通过几款工具来看看 AI Agent 目前有哪些真实的应用场景。

1. AI Agent “样板间” : AutoGPT

初心此前在《海外 Gen-AI 应用层研究I 》中提到过 AutoGPT,本文继续呈现 AutoGPT 背后的方法论、应用场景以及开发团队的愿景。

AutoGPT 是一个以 GPT-4 和 GPT-3.5 为 LLM 基座构建的开源应用程序,它与 ChatGPT 明显的不同是,在收到提示词(Promt)后,大模型会动用“任务规划”技能,自行把目标任务拆分成若干个可执行的子任务,无需用户再手动添加提示词告诉它应该怎么做。同时,记忆能力使 AutoGPT 能够利用自己的运行历史和矢量数据库做好上下文判断,做出更贴合人类需求的决策。而网页浏览、数据检索等工具使用能力又进一步让 AutoGPT 具备了直接执行任务的能力。

AutoGPT 发布之初,不少开发人员验证了它在市场分析、电商营销等场景下的作用。例如,4 月 13 日,一名开发者在推特演示了他用 AutoGPT 部署的 Research-GPT 工具。这款工具可以抓取市场最火热的几款耳机产品信息,并对价格等因素进行分析比较,然后自动生成研究报告。

微信图片_20231109190330.png

△开发者用 Agent 工具生成耳机分析报告

除了生成文字以外,最近 AutoGPT 的官网页面还展示了一个用它制作视频的案例。开发者把视频创意作为提示词最终输出一条视频。这个功能实现背后的逻辑是:扮演大脑的 GPT-4 先把创意撰写成视频脚本,接着把“视频脚本做成视频”这个大任务拆分成生成图像、生成 gif 动画、克隆声音等若干子任务,然后运用 Puppeteer、Giphy 等渲染和图像编辑工具执行任务。最终,脚本对应的代码片段转化成图像、动画、音频,组合成一段视频。

微信图片_20231109190327.jpg

△GPT-4 调用多种外部工具,最终生成视频

简而言之,AutoGPT 实现了AI 从“教你做”到“帮你做”的一大跨越。作为AI Agent 中的第一个“网红”,AutoGPT 很快得到了资本追捧,在今年 10 月 14 日拿到 1200 万美元的融资。

但在实际使用中, AutoGPT 的局限性也很明显。譬如它的应用门槛较高,需要下载 Git、Python 等特定开发工具。对于不掌握编程技术的普通用户来说,很难用它部署属于自己的“AI 助理”。而在一些复杂任务的执行过程中,AutoGPT 也容易陷入循环错误。

针对这些问题,AutoGPT 创始团队核心成员 Toran 在今年 5 月份的一次行业分享中做出了回应。他表示,Auto GPT 的核心愿景是让每个人都能从 AI 技术中平等地获益。“不仅能平等地使用 AutoGPT,也能看到 AutoGPT 运行过程中的每一步发生了什么。”基于这一愿景,AutoGPT 团队计划开发网页版、桌面端和移动端应用。

而关于循环错误等 bug,Toran 认为,最好的解决办法是用“挑战驱动改进”(Challenge Driven Development ),即用 AutoGPT 目前还难以完成甚至无法完成任务来训练它,从而提升大模型对特定领域知识的理解,甚至拓展出本来不具备的功能。另外值得一提的是,Toran 还提到了另一个提升维度——自主性。他希望 AutoGPT 不仅仅是 “ChatGPT+插件工具”的组合,而是能变成一个自主使用“ChatGPT+插件工具”的用户。

2. 当 AutoGPT 大众化:AgentGPT

AutoGPT 为 AI Agent 框架的实践提供了 ,基于其框架和模式开发的“技术小白友好型”工具陆续诞生。Open AI 开发的 AgentGPT 即是其中一款。

给你的 AI 助理起一个名字,再输入你想让它帮你做的事。不到 2 分钟,这个由你亲手缔造的“助理”就把你设置的任务拆分成若干子任务,并把每一个子任务的几次执行结果呈现给你。如果你还有更多疑问和需求,可以在对话框给它提出新要求。这是 Agent GPT 的使用流程。

和人们更熟悉的 ChatGPT 一样,AgentGPT 是一款基于 GPT 架构开发的自然语言模型工具,用于生成自然语言文本、执行任务和回答问题。

但二者的区别也很明显。如果用职场人设来打比喻,ChatGPT 像一个干练直接、结果为导向的顾问,更擅长产出要点性信息,但如果对其输出的内容有更多疑问,则需要继续深入地追问。AgentGPT 则更像一个细致入微、注重呈现工作步骤和思考过程的“助理型”白领。面对一个任务,不仅能给出信息颗粒度更细的解决方案,拆解任务的思路和维度或许也能给到用户一些启发。

例如,同时分别在 AgentGPT 和 ChatGPT 中输入提示词“举办一场以 AI 为主题的公司年会”,AgentGPT 首先会把这个任务拆分成“确定年会的时间、地点和预算”“邀请有关人员来参加年会”等四个子任务,再给出每一个子任务的执行步骤和结果,呈现的信息非常详尽。ChatGPT 生成的则是一份大纲式的指引。

微信图片_20231109190324.png

微信图片_20231109190321.png

△AgentGPT 会呈现具体的思考步骤

微信图片_20231109190318.png

△ChatGPT 生成的内容更像一份大纲

产生这一差别的原因在于,在 Agent 框架下,大模型叠加了把大目标拆分成小目标的任务规划能力。同时,AgentGPT 用户可以通过“工具(Tool)”设置,决定为大模型配备哪些外部工具,这也是 Agent 框架中工具使用(Tools using)能力的体现。比如,在让 Agent GPT 策划 AI 主题年会时,如果为它开放了浏览器API,它会使用网页检索工具,给出的回答也来自相关的网页。但和 Auto GPT 类似,目前的 AgentGPT 依然不够智能,读取了海量网页信息后,扮演大脑角色的大模型会陷入混乱,给出的回答语焉不详。

11 月 7 日, OpenAI 在开发者大会发布的 GPTs 也是 AI Agent 大众化趋势的又一印证。如本文开篇所示的例子,用户只要用自然语言发出指令,配上需要使用的数据或知识文本,就可以快速创建一个生活或工作场景使用的 GPT。

3. 编程垂类应用: V0.dev & React Agent

在网页前端开发等垂直、专业场景下,AI Agent 框架也正在发挥作用,推动专业领域朝“傻瓜化”方向发展。

2023 年 9 月,美国前端开发服务平台 Vercel 推出 UI 代码自动生成工具V0.DEV。这款工具让一个完全不掌握编程知识的技术“小白”也能参与 UI 界面设置。在对话框输入简单的文字提示,就能生成 UI 组件和对应的代码。用户可以对代码进行实时修改,并直接把代码复制粘贴需要的地方。

例如,在对话框输入需求:“生成一款和 ios 类似的天气 app” ,V0.DEV 会生成相应的 UI 界面和代码。在此基础上继续用新的提示词提出新需求,迭代更多版本。比如,可以要求它“把背景变成蓝色”“内部文字宽度设为500px 并居中”等,生成的 UI 和对应代码都会进行实时调整。

同时,V0.dev 还提供了多种 UI 组件示例,如新闻网站、博客模版、音乐播放器等,便于用户参考。简而言之, V0.dev 的使用体验类似于产品经理和开发人员的合作过程。产品经理用通俗易懂的自然语言写一份需求文档(PRD),开发人员根据需求来设计和开发即可。

微信图片_20231109190315.png

微信图片_20231109190312.png

△V0.dev 官网展示的天气应用UI生成案例

V0.dev 的功能是如何实现的?近日,一款发布在 Github 的一款开源应用 React Agent 也实现了和 V0.dev 类似的功能。用户可以在对话框简单描述需要生成的 UI 界面,React Agent 会生成相应的页面及代码。React Agent 开发者在 Github 上共享的信息展示了其功能背后的逻辑。

微信图片_20231109190310.png

△向 React Agent 输入一段指令,可以生成相应界面

据开发者在 Github 公开的信息,React Agent 是以 GPT-4 大语言模型为底座,基于React、TailwindCSS、Typescript、Radix UI、Shandcn UI 等用户界面开发常用的编程语言和开源工具包,再叠加 OpenAI API 构建的一款工具。

其中的 React 是广泛应用于前端用户界面开发的 JavaScript 库和框架,它的核心特点之一是组件化开发。就像拼乐高一样,将用户界面拆分为若干个独立的组件,对应的代码也呈现出模块化特征,可以被灵活地“拼接组装”。

React Agent 以 React 命名,在动用任务规划能力拆分任务时也延续了后者的组件化开发模式。具体流程是:基于用户输入的需求(User story)和设计工具 Figma 搭建用户界面基本框架,并配置框架所需的组件;然后进入组件制作环节,生成若干“分子级”组件,比如搜索框、按钮组、标单字段等,再将这些“分子”组合成若干个“有机体”组件,如导航栏、侧边栏、页头;最后把这些组件组合起来成一个完整的页面。

组件的配置过程中,React Agent 会调用到外部库(External)、设计系统(Design System)和应用架构(Application Achitecture)等资源和架构方式。在组件构建过程中,则按生成代码(Generate)、格式化代码(Format)、编译代码(Compile)、测试代码(Test )、运用Storybook、上传代码(Push)等步骤来执行。

微信图片_20231109190307.png

微信图片_20231109190305.png

△React Agent 工作流程图

4. 研究垂类应用:GPT Researcher

信息提取和检索是 LLM 的一大优势。叠加了外部工具后,这一优势得到放大,对于需要进行海量信息搜索、整理的研究分析场景来说颇具价值。开源工具 GPT Researcher 即是借鉴 AutoGPT 方法论开发的一款专注生成研究报告工具。

微信图片_20231109190302.png

微信图片_20231109190300.png

△GPT Researcher 界面

GPT Researcher 的交互方式较为简单,用户在页面上方的搜索框输入目标任务、选择输出的内容类型后,GPT Researcher 便会把任务拆分和执行过程显示在下方,最终生成报告。借用其 Demo 视频展示的案例来理解,用户输入提示词 “2023年是否应该投资半导体产业”, GPT Researcher 会把这个问题拆分成预计增幅、风险、趋势、历史业绩等几个问题,然后利用网页检索和爬虫能力,抓取、分析、总结与这上述问题相关的信息,再进行报告撰写。最终生成的报告支持文本复制和 PDF 下载。

上述实现过程与 AutoGPT 的底层逻辑一致,但 GPT Researcher 开发者 Assaf Elovic 在一篇博文中指出,AutoGPT 在子任务拆分、准确性、执行速度上存在明显缺陷,而 GPT Researcher 针对 AutoGPT 的缺陷做出了有针对性的改进。

首先, AutoGPT 的任务执行过程没有边界,很容易陷入无限循环,几乎每一个步骤都需要用户人为干扰,有的时候并没有真正完成任务。GPT Researcher 则会把总目标拆分成一个有清晰的子任务大纲 ,让大模型有的放矢地去执行大纲中的每一个任务,确保任务执行过程是确定有限的,不偏离主题。

第二,AutoGPT 检索的信息来源并不收敛,许多和目标任务相关度并不那么高的网页或文档也会纳入分析范畴。加上大模型的幻觉问题,生成内容的准确性和可信度有很大的问题。GPT Researcher 则把“只抓取分析与目标任务高度相关的信息”作为调动爬虫工具的一个原则,确保使用的信息库是有效可靠的。同时遵循“大数定律”,尽可能多地检索信息,以保证最终输出的报告信息真实可靠。

第三,AutoGPT 的工作流程是逐一执行子任务,所以处理一些复杂任务的用时较长长。GPT Researcher 则会把各个子任务放入 Python 库,多任务平行运行,从而提升处理速度。Assaf Elovic 称,多次测试结果表明,GPT Researcher 的单个任务处理时长平均约 3 分钟,较 AutoGPT 提效约 85%。

��微信图片_20231109190251.png

△GPT Researcher 的架构图

但从输出的报告质量来看,GPT Researcher 的实际能力和开发者构想的优势还有一定距离。从 demo 中展示的例子可见,GPT Researcher 生成的报告内容信息量有限,且内容来源数量也相当有限。如“市场预测和行业意义”部分的信息来源仅有 TheRegister 和 KPMG 两家,内容质量对专业人士来说参考价值也很有限。

微信图片_20231109190254.png

△ GPT Researcher 生成的报告内容信息量有限

03 初心 AI Agent 洞察

1. 现状:仍处“小学生”阶段,提升空间巨大

AI Agent 的本质是一种更高级、更接近人类提取知识的模式的方法论。大语言模型是一个被高度压缩且完全链接世界的知识库,过往直接使用输入-输出( IO Prompt)方式提取知识,并没有完全发挥出它的价值。AI Agent 则利用各种策略去激发大模型的潜力,以此来提升 AI 的智能化表现。

但如果说 AI Agent 这套方法论是一门新语言,当前的应用水平只达到了小学生的表达能力。它可以解决一些逻辑链条相对简单的任务,作为对话类、助手类 AI 应用迭代基础功能迭代的路径选择。但还无法像高中生、大学生那样深度表达,面对复杂任务无法做出准确的认知和拆解。基于当前的大模型基座,AI Agent 的应用效果还有非常大的提升空间。

在垂类场景,由于欠缺成熟的思考规划能力和对专业领域知识的掌握和理解能力,对于很多专业人士来说,现有AI Agent 工具提供的功能很难直接复用到工作中,更多只起到辅助作用。

相对而言,代码开发场景下的 AI Agent 应用较为成熟。以 V0.dev 为代表的用户界面生成工具几乎处在了垂类 AI Agent 的 SOTA(State of the Art,尖端水平 )状态。这也与代码开发工作流程、数据结构等和 AI 的学习、反馈流程更加适配有关。

2. 趋势:提升技术工程化能力、精细化应用 Agent 能力组件

AutoGPT 的应用验证了,把大任务拆分成若干小任务、再动用外部工具执行子任务,这是一个合理的方法论。但目前的卡点在于,除了大模型这个“大脑”本身的各项能力还需要继续提高以外,Agent 框架下的各个能力组件应用得也不够精细,从任务拆分到工具应用,整个过程的工程化还不够成熟。

这也说明 AI 本身并没有那么聪明,需要人类像变魔法一样给它施加命令才能创造出新事物。而且命令越精细,“魔法”的效果才越神奇。

可以预见,解决 Agent 框架下各能力组件应用的工程问题是短期内的一个趋势。如果在任务规划、工具使用、数据来源上都能更加贴合人类的真实场景,AI Agent 工具会表现得更加智能。比如在拆解策划年会这个任务时,如果AI Agent 的规划方式更符合人类在做同类事项时的常规逻辑,输出的结果也就更能满足用户的实际需求。这是一个驱动 LLM 的思考方向不断向人脑系统2(System 2)靠近的过程。

从 AI 技术的迭代速度来看,大语言模型和 Agent 的技术工程问题或许未来 1-2 年就会有大幅提升。等技术落地的鸿沟跨越过去,更多应用方式也会应运而生。

3. 机会:从垂直领域切入,切口越小越有价值

AI 本身没那么聪明,需要更聪明的人类围绕一个领域单独去设计它,才能让它带来更好的体验。因为解决不同领域的问题所需要动用的规划能力、记忆能力、执行策略、数据信息都有差异。想设计出一套适用于所有领域的“万金油”式的能力组件难度很大。

因此我们认为,Agent 的创业机会在垂直领域,且切入的切口越小,越有价值。从已有的 AI Agent demo 来看,订 pizza、做英语教练、法律助手等切口看似垂直。但实际使用下来,这些工具并没有让人产生“非它不可” 的感觉。因为嵌入 AI 能力后,这些功能的实现没有比现有应用做得更好。这说明这些切口依然不够细。

但这也是创业者的机会所在。找到足够小的切口深耕其中,第一个做到 80 分体验的产品,就能尽早建立行业壁垒。同时可以预见,在摸索精准切口的过程中,垂类领域的 Agent 竞争也会比较激烈。

展示 AIGC 实践成果,初心被投企业「Nolibox 计算美学」亮相 2023 云栖大会 | 初心分享

做陪伴创业者
最早的投资机构

初心是积极布局新兴业态的早期股权投资基金,专注于企业级软件、科技创新等领域的投资。我们致力于捕捉因科技赋能而改变行业格局和通过软件帮助企业降本增效、优化运营的优秀企业,进行投资布局。欢迎留下你的联系方式,与我们取得联系。