Skip to content

一篇文章讲清楚AI基础概念:LLM、token、Prompt、Agent、Skill、RAG、Harness

你可能听说过很多关于AI的概念和名词,比如我们知道豆包叫做大语言模型;比如我们输入豆包指挥它干活的文字叫做提示词;或许你也听说过AI Agent的概念,听说过前段时间爆火的「龙虾」,以及各种各样,层出不穷的新概念。

这篇文章,介绍截至2026年6月,市面上主要的与AI相关的概念,以及它们之间的关系。帮你更好的了解AI。具体包括:

大语言模型 LLM

判别式人工智能

生成式人工智

词元 Token

提示词 Prompt

提示词工程 Prompt Engineering

上下文 Context

上下文窗口 Context Window

智能体 AI Agent

工具 Tool

技能 Skill

检索增强生成 RAG

驾驭工程 Harness (Engineering)

驾驭工程 Harness (Engineering)

CLI

CLI

Claude Code

Claude Code

Codex

Codex

GPU

GPU

幻觉

幻觉

神经网络

神经网络

机器学习

机器学习

文章里面提到的一部分概念,在我的新书《人工智能故事书》中有更详细的介绍和分析。

京东搜索书名《人工智能故事书》即可找到,目前京东自营渠道在全国大多数地区均已上架。

1

大语言模型 LLM

这是目前这一轮AI浪潮中最底层,最基础的概念。在2022年之前,市面上其实也有很多人工智能的应用,比如人脸识别、语音识别等等,都是人工智能;包括你在电商网站上经常看到的「猜你喜欢」,你邮箱里面的反垃圾邮件功能,其实都是人工智能。

但是,2022年11月发生了一件大事,就是ChatGPT上线。我们发现,以前的人工智能都只能基于数据,给出某种确定性的结论(例如人脸识别,就是判断这张脸是不是你),而没办法创造出新的东西。所以我们把以前的各类人工智能统称「判别式人工智能」。而ChatGPT不一样,它可以根据你的输入,自行组织语言,创造出新的内容回复给你。所以我们称这类人工智能为「生成式人工智能」。

另一方面,由于我们是使用自然语言来操作ChatGPT,所以我们又称其为「大语言模型」,英文是Large Language Model,缩写LLM。现在市面上有很多大语言模型,例如:ChatGPT、Gemini、豆包、千问、DeepSeek、Kimi等。

大语言模型的问世具备划时代的意义,因为这可能是人类目前唯一一种能够稳定、有效地模拟大脑的技术。所以,大语言模型为数字化世界提供了「思考」能力——以前的所有计算机程序,理论上只会判断,但不会思考。当然,如果你读过我的书,在《人工智能故事书》第四章里面,你会了解到,大语言模型并不是真的会「思考」,它们只是在不停地算概率。但从宏观的视角来看,从我们人类的视角来看的话,它会表现出「思考」的效果。

2

token

大语言模型可以「理解」人类的语言,并且使用人类的自然语言与人类沟通。但是,在模型眼中,语言的基本单位与在人类眼中是不一样的。

举例来说,对于中文,我们人类眼中其基本单位可能是「字」。也即,每一个汉字,都是组成中文句子,承载中文语义的基本单位。但是,在模型眼中,中文的基本单位不一定是汉字。或者说,有的汉字可以独立称为一个基本单位,有的则可能是两个字、三个字连在一起才是一个基本单位。所以,在AI模型眼中,语言的基本单位,就叫token。

如图所示,对于gpt-4o这个模型来说,「人工智能故事书」这段话虽然有7个汉字,但在它眼中会作为4个token处理。人工是一个token,智能是一个token,故事是一个token,书是一个token。

token这个词,严格来讲没有指定的中文翻译。之前一些媒体发布过消息,据说正在征集它的中文译名。目前呼声比较大的译名是「词元」。

3

提示词 Prompt

我们发给大语言模型的「内容」,用来指挥它干活的这些指令,叫做提示词,英文是Prompt。事实上,跟人工智能沟通的语言风格,以及语言技巧,可能会跟与人沟通不太一样。

举例来说,人跟人之间的沟通有时候可以用模糊的、不准确的语言来完成,可能并不影响对方理解。但与人工智能沟通,最好做到准确,严谨。相应的,就又有「提示词工程 Prompt Engineering」的概念。也即,研究如何向大语言模型发送指令,才能指挥它更好地完成工作的工程。

在《人工智能故事书》中,我向读者介绍了源自Google的《五步提示词框架 5 Step Prompt Framework》,这是用好大语言模型的基础。事实上,类似的框架还有很多,但是Google的这套框架我认为最严谨,因为它的视角是作用于与大语言模型沟通的整个过程,并不只是在提示词写作层面上。

提示词工程的本质其实并不是研究如何去给模型下「命令」,而是在试图划定一个局部的概率空间。我知道这句话可能不是人话,但是,它很重要。如果你看不懂,可以尝试读一下我的《人工智能故事书》。

4

上下文 Context

大语言模型实际上只是一套复杂的数学函数,所谓函数,就是你给它输入,它经过计算,给你输出。但是,在我们日常使用大语言模型的过程中,你可能会发现两个现象。

第一,一般情况下,它是有一定的「记忆」功能的。比如你问它一个问题,它回答,然后你说「前面你提到xxx,但是我并不认同,我认为xxx」你会发现,它是能够基于你们的对话历史,把对话连上的。

第二,对于一些相对熟练的使用者来说,你可能会发现,单纯的一句话问题得到的回复质量往往并不好。但是如果你在问题之前描述清楚提出这个问题的背景信息,往往模型可以给到你更加高质量的回答。

这就是上下文(Context)的作用。所谓「上下文」,就是决定当前这句话真实含义的全部相关背景信息与历史对话记录。合理使用上下文,将会大幅度提升大语言模型回复的质量。在非对话场景中(例如AI编程),上下文更加重要,它能够让AI看到你整个项目的全貌和已有基础,从而写出能直接与你现有工作完美拼接的内容,而不是给你一段通用却根本用不上的孤立片段。

另一个概念叫做「上下文窗口 Context Window」,它的意思是AI在单次任务中,最多能同时记住和处理的文本总长度。显然,AI的「大脑」跟人类一样,是有一个容量上限的,一旦你输入和它输出的内容总和超过了这个额度,它就会被迫开始遗忘最前面的对话或背景信息。

但是别担心,现在的大语言模型上下文窗口都很庞大。如下图所示,是字节跳动火山引擎上,豆包这个模型的几个版本的规格参数。

我们发现,其上下文窗口大多是256k,如果以粗略的token来换算,大约可以容纳15到20万个汉字。也即,理论上你们的对话在15万汉字之内,它都能记住。

所以,与大语言模型对话的过程中,类似使用搜索引擎一样的只言片语并不是好的方案。很多时候,你把核心的背景信息提供给它,才能获得更好的回复。

另外再多说一句,上下文 Context并不只是用文字形式表达的,对背景的描述信息,而是所有会影响模型当前决策的数据总和。由于这篇文章只是介绍基础概念,所以此处不展开。

5

智能体 AI Agent

前文提到,大语言模型就相当于是人工智能的大脑,它可以「思考」。但是,单纯的大语言模型只能「思考」,没办法动手做。所以,当你问豆包一个什么问题的时候,它可以告诉你是什么,如何一步一步操作,但是没办法直接帮你把任务完成。

智能体(AI Agent)就是用来解决这个问题的。我们可以简单把智能体理解成大语言模型(大脑)和其他计算机技术所形成的程序(手和脚)的集合。大语言模型负责接受我们的指令,思考要如何完成任务,可能还需要拆分任务和步骤。然后它通过某种方法去调用电脑(服务器、线上)上的程序软件,去完成这些任务。最终反馈给我们任务执行的结果——就像是你的秘书一样。

AI Agent有很多不同的形式,比如之前有人发过在理想汽车上用「理想同学」点咖啡,这就是AI Agent的基础应用。再比如,我们现在可以使用很多软件平台来搭建自己的AI Agent,例如字节跳动的「扣子」、腾讯的「WorkBuddy」等。这是目前非常流行的概念和方法,你可以下载这些软件自己去尝试一下。

与AI Agent相关的,还有几个概念。

首先是「工具(Tool)」,这个很容易理解,我们就简单的把它理解为「给AI用的软件」即可。比如你问一个Agent,今天天气如何,它听懂了,但是它也不知道天气啊,它必须使用相应的查询天气的程序去获得天气的信息,然后告诉你。这个查询天气的程序,就是Tool。

然后是「技能(Skill)」,这个概念也容易理解,跟我们日常生活中的技能逻辑差不多。比如说,我们每个人都有大脑,有手有脚,对吧?所以呢,假设我们学习一种叫做「开车」的技能,我们就可以用自己的大脑和手脚去操作汽车,可以把它开走,以便于把我们带到其他地方。再比如,我们可以学习一种叫做「炒西红柿鸡蛋」的技能,学会后,我们就可以用自己的大脑和手,借助一些工具(Tool),例如燃气灶、锅、铲子,来制作西红柿鸡蛋,以便于解决午餐的问题。

对于人工智能来说,逻辑是一样的。你如果需要它完成一个相对复杂的任务,那么你就需要让它学习完成这个任务的技能(Skill)。所以从另一个角度来讲,Skill就像是完成某些特定任务的「操作手册SOP」,但是这个是专门给AI看的手册。它需要的时候,拿出来看,然后照着做,一边做一边思考(大语言模型),一边动手实践(Tool),现学现卖,就能把任务完成。

在工程层面,开发人员会把操作手册和相应的工具打包放在一起,有时候可能还需要提供一些额外的资源,从而形成一个一个的Skill。AI在工作过程中,如果觉得需要某个具体的Skill,就会自主调用,然后帮你完成任务。

接下来是SKILL.md。看起来是个文件名对吧?没错,就是文件名。一家叫做Anthropic,首先使用SKILL.md这个文件名,来承载Skill的内容。后来形成了标准,也即,几乎所有的支持Skill能力的AI Agent平台,都会用SKILL.md这个名字来命名记载了Skill内容的文件。

通过这个文件,开发者可以清晰地告知AI:

这是什么能力(命名与元数据)

什么时候该触发它(触发条件与适用场景)

具体的操作步骤与规则(严格的工作流、使用的脚本或 API)

避坑指南(人类积累的边缘情况和错误处理经验)

另外,之前火爆一时的Openclaw(龙虾)就是AI Agent的一种。

6

检索增强生成 RAG

大语言模型是基于海量语料训练得到的,它虽然很聪明,但是有两个问题。第一,在训练结束的那一刻,它内部的「知识」就被冻结了,这意味着之后的世界它是不知道的。第二,我们的私有知识(例如你们公司的报销流程)它是不知道的。

所谓检索增强生成(Retrieval-Augmented Generation,缩写RAG)大概意思就是,先检索,基于检索的内容来生成。你可以理解为,我们把相应的新知识、私有数据等,做成一本书,然后交给大语言模型。要求它回答问题之前,先翻书,找到相应的内容,然后自行组织语言,用「人话」讲出来。

目前很多线上的「智能机器人」都是基于这种技术来实现。

6

驾驭工程 Harness Engineering

Harness这个词的原意是「马具」,也就是套在马身上,用于驾驭它的结构的集合,例如缰绳、头套等等。所以,Harness在人工智能领域中的含义就是,如何才能有一整套机制/工具/方法,来持续的盯着人工智能模型,让它在执行复杂任务的过程中,持续在正确的方向和轨道上,不要跑偏。

有工程师曾给Harness下过一个简单的(偷懒的)定义,叫做:

Agent = Model(LLM) + Harness

Agent = Model(LLM) + Harness

我们知道,模型用于思考,所以在一个AI Agent体系中,除了模型(思考)之外的,所有能够决定它能不能稳定、可靠完成任务的元素,统称为Harness。

所以,站在这个视角来看的话,提示词(Prompt)、上下文(Context)、工具(Tool)都是Harness的一部分。

除了这些之外,在具体的工程层面,可能还会有一些元素或者方法,会影响任务的最终结果。比如,什么内容应该存进Agent的Memory(记忆)中,如何更新;有没有相应的「恢复机制」,例如一种方式失败了,接下来怎么办;可以给LLM调用的工具列表;用于指导模型行为的各类配置文件(如CLAUDE.md)等等。到了这里,可能就已经要不可避免的涉及很多工程细节了,对于本文的读者来说,就此打住。

7

其他相关概念

文章最后,再列举一些其他的相关概念,供你参考。

CLI:命令行界面(Command-Line Interface),因为很多AI工具源自开源社区,而对于程序员们来说,最高效顺手的工具并不是图形化UI,而是命令行。所以随着AI的火爆,很多工具都开始提供CLI版本。这其中著名的可能就是Claude Code。

Claude Code:一款著名的AI编程工具,它的底层其实是一套通用的Agent平台。由Anthropic公司开发。

Codex:OpenAI开发的AI编程及Agent平台,你可以认为是Claude Code的主要竞品。

GPU:图形处理单元,也即一般电脑上的「显卡」。它跟CPU分工协作,架构起了今天的数字世界。CPU擅长相对复杂的并行计算,类似高等数学证明题;而GPU擅长高并发的相对简单的浮点运算,相当于10万名小学生。小学生虽然不懂高等数学,但是如果任务是计算100万道乘法题,那么GPU的效率会远远高于CPU。而如今的人工智能模型内部的计算,其逻辑就像是100万道乘法题一样。

幻觉:大语言模型是基于概率的计算来工作的,所以有的时候它会「一本正经的胡说八道」,这种现象称为AI幻觉。

神经网络:现代人工智能的底层技术,实际上是一套复杂的数学函数。但是这种函数的结构是分层的,并且每一层内部的各节点与前后两层的节点可能会有连接,其形态类似于人大脑内部的物理结构,故称人工神经网络,简称神经网络。

机器学习:现代人工智能的另一种底层技术,其逻辑过程就是通过一些具体的技术手段,来调整神经网络上的参数,以便于让它在执行一些任务过程中,效果更好。简单理解,机器学习就是不断的「试错」过程,最终试出一套靠谱的模型。

最后,如果你是非技术背景的朋友,希望对人工智能的原理逻辑、发展脉络,以及应用范式有更多了解,可以京东搜索《人工智能故事书》,最近618正在打折促销,定价69元,现在京东自营只需35元。

这本书的副标题是《懂中文就能读懂的AI通识与应用》,表意很明确,不做过多解释了。


Harry

连续创业者

数字化战略及产品咨询专家

香港中文大学(深圳)管理学理学硕士

前腾讯高级产品经理

前腾讯学院新锐讲师

《AI时代的数字化思维》

《人工智能故事书》等书籍作者

关注互联网与人工智能的发展

深入思考科技与商业

公众号ID:uxcafe

Released under the MIT License.