一个计算机技术爱好者与学习者

0%

基于MetaGPT实现一个订阅智能体:第二章 AI Agent知识体系结构

1. 前言

本章任务:

  • 了解智能体的定义
  • 了解热门智能体案例
  • 了解智能体的宏观机会
  • 了解智能体与System1&System2

本文中的内容,大都摘录自《MetaGPT智能体开发入门》教程,更多内容请阅读全文。

2. 智能体的定义

代理(Agent)这个词来源于拉丁语“agere”,意为“行动”。现在可以表示在各个领域能够独立思考和行动的人或事物的概念。
智能体(智能代理)是以智能方式行事的代理。Agent感知环境,自主采取行动以实现目标,并可以通过学习或获取知识来提高其性能。可以把单个Agent看成是某个方面的专家。

一个精简的Agent工作流程为:感知 -> 规划 -> 行动

  • 感知(Perception)是指Agent从环境中收集信息并从中提取相关知识的能力。
  • 规划(Planning)是指Agent为了某一目标而作出的决策过程。
  • 行动(Action)是指基于环境和规划做出的动作。
  • 其中,Policy是Agent做出Action的核心决策,而行动又通过观察(Observation)成为进一步Perception的前提和基础,形成自主地闭环学习过程。

MetaGPT中对于智能体(Agent)的定义,请参阅文档《基于MetaGPT实现一个订阅智能体:第三章 MetaGPT框架组件介绍》

参考文档:

3. 热门智能体案例

23年11月OpenAI推出ChatGPT自定义功能,用户可为特定目的创建自己版本的ChatGPT,被称为GPTs,以构成GPT商店(GPT Store)。GPTs可以单纯通过提示词创建,也可以配合调用工具实现更强大的功能。OpenAI的GPTs,可能是目前最广为人知的智能体。
此外,国内的文心一言、通义千问、腾讯混元等大模型也在自己的APP上推出了能够完成特定任务的智能体,其中文心一言是支持自己定义智能体的。
而MetaGPT,和以上LLM不同,它能够调用各种大模型的API,以编程辅助,实现更自由的智能体定制。

GPTs汇总:

GPT Agent案例体验:

更多agent项目和产品,请参阅github - e2b-dev/awesome-ai-agents

4. 智能体的宏观机会

99%的互联网入口将由App变为智能体:人类感知的字节数降低到极限

信息技术革命沿着,门户->搜索->推荐->Agent演变;本质是人类需要操作的字节数在迅速变少。比如一个调研需求,人类需要搜索、阅读100个页面再做总结,但Agent可以自己做完这个流程,人类阅读结果就可以。以此类推,订票、购物、搜索、IM等大部分流程都可以交给Agent做
软件的需求依然会持续存在,但入口将被Agent接管。软件仅做为数字世界的一部分被感知、做为部分API被使用。

社会协作变革:虚拟员工进入企业,红杉预计 智能体数量 五年后和人类1比1

AI Agent是新的高级物种,为了实现类人智能,大语言模型实现了人脑的20%,我们需要构建AgentStack补齐剩余的80%
补齐之后,Agent就可以直接供给生产力,并且同类问题的平均解决成本在人类的1%以内,效率平均在100倍以上

5. 智能体与System1&System2

Andrej Karpathy说:
诺贝尔经济学奖得主丹尼尔卡尼曼在《思考快与慢》中提出,人的认知系统包含System1和System2两个子系统。System1主要靠直觉,而System2是逻辑分析系统。
通俗来说,System1是一个快速自动生成的过程,而System2是经过深思熟虑的部分。

例如,如果我问你 2+2 等于多少,你实际上并没有做数学计算。你只是告诉我它等于4,因为这是可用的,已经存在于你的大脑中,是本能的。
但是当我问你 17*24 等于多少时,你并没有准备好这个答案,所以你会启动你的大脑的另一部分(系统2),这部分更加理性,更加缓慢,进行复杂的决策,感觉更有意识。你不得不在脑海中解决这个问题,然后给出答案。
另一个例子是,如果你们中的一些人可能下象棋,当你进行快速象棋比赛时,你没有时间思考,所以你只是根据直觉移动棋子。这时大部分由你的System1 来处理。但如果你在比赛中,有更多时间来思考,那么你会更多地参与到决策中,你会感到自己在建立可能性的树,这是一个更有意识、更费力的过程。你必须在脑海中解决问题并给出答案。

现在事实证明,LLM 目前只有System1。它们只有这个本能部分,它们不能思考并推理出各种可能性。
所以很多人认为,创建一种思考的树状结构,赋予 LLM System2的能力让它们更深入地思考问题,反思和重新表述,LLM的答案会更好。