思路
这个问题最开始的样子是”什么是智能体“,经过一系列问答后变成了这个。
Q1:多模态大模型和实现多功能的智能体有什么关系?豆包等软件是如何通过非多模态的模型实现多模态功能的?
A1:多模态模型是大脑,智能体是工具。豆包的智能体是通过将多模态任务分成多个单模态任务来实现多模态功能的。
Q2:MCP和AGI的关系?
A2:MCP(模型上下文协议)和AGI(通用人工智能)没有直接联系,MCP作为实现Agent(智能体)的重要基础,而Agent是AGI的重要组成部分,AGI是人工智能的终极目标。(这里有一个分级演进的模型暂且不讨论)
Q3:AGI的组成。
A3:AGI分成LLM、Agent、KG(Knowledge Graph)、RAG(检索增强生成),而Agent依赖MCP实现Function Calling,KG、RAG依赖数据库和知识库。因此智能体事实上是一个用于对其他设备进行操作的框架,KG、RAG的存在是为了弥补单纯依靠LLM进行思维的不足,分别提供给LLM联系概念、记忆(结构化知识、深度语义推理)的能力和更新知识(事实性增强、动态知识获取)的能力。
Q4:为什么LLM、KG、RAG不看作是组成Agent的部分?
A4:Agent是执行系统、MCP是Agent连接外部工具、数据源的连接器。Agent代表的是整合LLM、KG、RAG的那部分,所以其含义应该为框架或者代理,含义是代替人来实现LLM提供的操作步骤,调用外部工具。
可以知道智能体随着时间变化具有了不同的含义,而现在豆包等使用的智能体已经不是最新的智能体定义了。由”感知-决策-行动“可以看出,新的智能体的概念指Narrow AI。
整理后的结果
AGI包含LLM、Agent、KG/RAG。
LLM通过Agent获得了Function Calling的能力,能够操作外部工具。如果每个工具都自主实现提供给LLM使用的接口将使Agent极其复杂,所以通过统一的MCP获得简化和统一。
KG/RAG是为了增强LLM的功能,表现为数据库(外部知识库)、知识库。
智能体之所以让人感到疑惑,是因为它的概念确实已经发生了改变,中文的智能体概念早已脱离代理的含义,而直接指向现在的Narrow AI和未来的AGI。智能体可以看作是人,豆包的智能体已经能够做到像人一样提供结果,限制是一个智能体通常只能有一个功能;而AGI可以看作是人,这个人的功能根据Agent的扩展几乎无限。
不能理解的内容
如果能够通过AGI联系多个LLM实现多功能,那么开发多模态LLM的优势主要体现在哪里。
comment 评论区
star_outline 咱快来抢个沙发吧!