← 返回博客

什么是 AI 记忆?ChatGPT、Claude 和 Gemini 是怎么"记住"你的(2026)

让 ChatGPT "记住"你偏好 Python 而不是 JavaScript,它会愉快地答应。让 Claude 回忆三周前某次对话的细节,它有时还真能翻出那个细节。到了 2026 年,"AI 记忆"已经成了每个主流 AI 助手的标配功能。

但如果你扒开表层往下看,会发现底下发生的事比 UI 暗示的要奇怪得多。AI 里的"记忆"根本不是一个东西。它是四个完全不同的技术层叠在一起,每一层做着完全不同的工作。当用户说"AI 记住我了",他们通常说的是其中最薄、最新的一层——而这一层其实只存在了不到十八个月。

这篇文章不是产品对比(那篇在这里),也不是迁移教程(那篇在这里)。它要做的是:给你一个清晰的心智模型,让你理解"AI 记忆"这个词底下到底藏着什么——哪些是真实的,哪些是表象,整个领域正在往哪走。

"记忆"这个词本身就奇怪

"记忆"这个词是从人类心理学借来的。当一个人回忆起一件事,大脑里有一条物理轨迹在被检索、整合,有时甚至被重新编码。记忆与学习是分不开的——回忆本身就是一种学习过程。

大语言模型什么都不做。一个 LLM 的权重——定义它行为的那几十亿个数字——在训练结束的那一刻就被冻结了。当你说"记住我偏好 Python"的时候,这些权重没有发生任何变化。模型内部没有任何东西被更新。今天所有在用 ChatGPT 的用户,实际上都在和一模一样的那一组数字对话,一字不差。

那 AI 到底怎么"记住"东西的?答案是:它没记住。它模拟了记忆——每次你发消息时,系统悄悄把相关内容塞进 prompt 里。看起来像记忆的东西,其实是一套精心编排的"检索 + 注入"把戏,架在一个自己根本没有记忆的模型之上。

一旦你理解了这一点,AI 记忆的古怪之处就开始合理起来了。所有看起来像记忆的行为,其实都是四种不同机制在做查询,然后把结果粘贴到你当前请求的上下文里——在模型看到之前。

基准:LLM 本身没有记忆

要讨论 AI 记忆,最好从基准讲起:LLM 本身完全没有记忆

具体是什么意思?假设你开一个新的 ChatGPT 对话,说"嗨,我叫 Alex"。模型读你的消息,生成回复("嗨 Alex,有什么可以帮你的?"),然后在回复送达的那一瞬间,模型就忘了。不是像人一样忘记——而是字面意义上没有任何东西发生了持久变化。模型的权重和五秒前完全一样,内部没有任何状态在往前传递。

如果你紧接着再开一个全新的对话,问"我叫什么名字?"模型会诚实地告诉你它不知道。因为它真的不知道。上一轮对话在模型内部没有留下任何痕迹。

这反直觉,因为对话感觉上很私人。你和 ChatGPT 聊天,它有思考地回应,它似乎在跟着你的思路——感觉像电话那头有个在感知你。但并没有。模型是一个纯函数:输入(你的消息加上系统决定注入的任何其他东西)进去,输出出来。没有内部记忆,没有跨请求的状态,没有任何会随时间累积的东西。

你看到的所有"记忆"形式,都是在这个基准之上的变通——外围系统通过在恰当的时机注入恰当的内容,来假装"模型记得你"。

AI 记忆的四层结构

现代 AI 助手通过四个不同的技术层来模拟记忆,每一层有不同的属性、成本和局限。用户经常把它们混为一谈,但把它们分开理解很值得——因为它们的行为非常不一样。

AI 记忆的四层结构图:模型权重(冻结的底层)、上下文窗口(工作记忆)、外部检索(RAG)、持久用户档案(最新的一层)

下面从底层往上讲。

第 1 层:模型权重(冻结的地基)

最底层是模型本身——训练时设定的几十亿个数值参数。模型的通用知识都存在这里:世界的事实、语言规律、推理模式、编程习惯、到训练截止日为止的历史事件。

模型不需要被告诉就"知道"的一切,都在这里。当 ChatGPT 能给你讲法国大革命、调试 Python 栈回溯,它靠的是这一层。

有三个性质必须理解:

训练后冻结。训练一结束,这些权重在日常使用中就不再变化了。你的对话不会更新它们。不管你纠正 ChatGPT 多少次、告诉它多少偏好,底层模型永远保持不变。

所有用户共享同一份。每一个使用 GPT-5 的用户,对话的都是同一组权重。不存在"你的那一份模型"。不同用户之间唯一不同的,是被塞进 prompt 里的内容。

普通用户碰不到。改变这一层的唯一方式是 fine-tuning——用新数据微调模型,成本高、耗时长,且只有 AI 提供商能做。作为终端用户,你对第 1 层完全没有访问权限。

这一层最经常被和"记忆"混淆。人们会说"ChatGPT 记得 Python 的用法"或"GPT-4 记得历史"。但这不是记忆——这是知识,在训练时被烘焙进去,所有用户共享,完全静态。更准确的说法是"模型学会了什么",而不是"模型记得什么"。

第 2 层:上下文窗口(当前会话的工作记忆)

再往上一层是上下文窗口——每次请求时被加载到模型里的 prompt 和对话历史。这是模型"当下"所知道的关于你的一切的存放处。

上下文窗口的大小在爆发式增长。2020 年 GPT-3 一次只能处理大约 2000 tokens(约 1500 个英文词)。2026 年 Claude 能处理 20 万 tokens,部分 Gemini 模型甚至超过 100 万。足够把一整本书塞进一个对话里。

在同一个会话内,上下文窗口感觉就像记忆。你在第 1 轮说"我叫 Alex",到第 20 轮它还在叫你 Alex。这不是因为模型记住了——而是因为每次发消息时,系统都把整个对话历史一起重新发送给模型。模型一次性看到全部 20 轮,处理,生成第 21 轮,然后整个东西消失。

两个关键限制:

会话结束就没了。开一个新对话,上下文窗口是空的。前后两个对话之间没有任何链接。

有硬上限。即便在同一个会话里,一旦你超过 token 上限,更早的对话轮次会被丢弃。你可能在很长的对话里注意到,模型突然"忘了"你早些时候说过的事——它没忘记,是那些更早的内容字面上已经不再随着你的消息一起发送了。

把上下文窗口叫做"记忆"技术上是误导性的。它更像是工作记忆——你做算术时暂时存住几个数字的那种临时记忆空间。不过你大脑的工作记忆是在几秒内自然褪色的,而上下文窗口不褪色——它在会话结束的一刻被手术性地直接切除。

第 3 层:外部检索(RAG)——参考资料库

第 3 层开始有意思了。检索增强生成,或者 RAG,是给模型接入一个外部数据库让它在回答前去查询的技术。

这一层模型也不"记住"任何东西——但它可以查。当你让 ChatGPT 搜索网页时,它在用 RAG:系统找到相关页面,提取内容,在模型生成响应之前把内容粘贴到你的上下文窗口里。ChatGPT"读"你上传的 PDF 时是同样的机制;Claude 搜索你过去的对话历史时也是。

底层上,RAG 通常通过向量嵌入工作。每个文档(或者文档片段)被转换成一个捕捉其含义的数值指纹。当你提问时,问题也被嵌入,系统在高维空间里寻找指纹最接近的文档。这些被拉进你的上下文。

RAG 改变了 AI 助手能做什么。没有它,模型只能用训练数据里的东西——过时、泛化、经常缺细节。有了它,它们可以引用上周的新闻、参考你公司的 wiki,或者从一份 400 页手册的第 87 页引用一段话。

但 RAG 有自己的性格。它是按需拉取的,不是推送的:模型必须(主动或被配置)决定为某个请求查什么东西。它不会累积出一个关于你的个人印象。每次查询都是去参考库里跑一趟。它还消耗 tokens——检索到的内容必须和你的对话一起放进上下文窗口里。

大多数人不把 RAG 当作"记忆"——从一种意义上讲他们是对的,因为关于没有任何东西被持久化了。但从另一种意义上讲,RAG 正是大脑的记忆对应的东西:一种在恰当时候把正确信息拉进活跃处理的机制。人类记忆基本上就是生物版的 RAG。

第 4 层:持久用户档案(个人说明书)

最顶层是最新、最薄的一层——也是大多数用户说"AI 记忆"时真正指的那一层。

ChatGPT Memory、Claude Memory 和 Gemini Memory 实现的都是同一个大致理念:为每个用户存一份小型的结构化文档,在用户开新对话时把它预先拼接到 prompt 里。这份文档通常最多几千 tokens——足够装下偏好、项目、技能和反复出现的指令,但相比上下文窗口能装的内容只是一小部分。

机制上是这样的:你发消息时,系统读你的个人档案,把它拼在你的消息前面,然后才交给模型。模型看到的东西大概是这样:

[SYSTEM: 用户是前端开发者。偏好 TypeScript。
当前在做一个 AI 记忆 Chrome 扩展。
被要求回答时总是用简洁的要点形式。]

User: 帮我调试这段 promise 链...

模型并不以任何特殊方式知道这份档案的存在。它把档案当作 prompt 的一部分来读。从模型的视角看,这就是 prompt 里多了一些内容而已。但因为这份档案跟着你跨会话迁移,它创造了"AI 记住你"的体验——尽管模型内部什么都没变。

持久档案有效是因为便宜。它占几千 tokens,不需要重新训练模型,可以编辑或删除。它也是最容易理解的一层,因为它直接映射到"AI 知道我什么"的直观感觉。

但权衡是真实的。档案装不下一切——它是摘要,不是日志。它锁在某个平台内,不易迁移(这个问题我们在平台对比那篇里有详细讨论)。而且因为它只是被每次请求都预拼到 prompt 里的一段文字,它跟你实际的对话争抢 token 预算。

为什么"记忆"是一个误用

把四层连起来看,你就会明白"AI 记忆"是一个多么滑动的概念。

第 1 层是知识,不是记忆。第 2 层是工作记忆,但只是最狭义的那种——它其实就是 prompt。第 3 层是从外部存储进行的检索。第 4 层是一份在每次请求时被预拼接的存储档案

没有一层对得上人类意义上的"记忆"。当你想起你祖母的脸时,你在做的事情涉及编码、整合、情感加权、重建——一个主动的生物过程。当 ChatGPT "记得"你偏好 Python 时,它在读一行文字——那行文字在某个更早的时间点被加入到你的档案里,现在被悄悄预拼到你当前的 prompt 前面。

换个说法:AI 没有记忆,它有的是选择性再曝光(selective re-exposure)。AI 看起来拥有的每一段"记忆",其实都是一段文字被某个检索机制选中、被注入到当前请求的上下文窗口里。没有持续的主观回忆体验。只有文字片段在以正确的顺序被组装起来。

这不是批评——这套机制对大多数实用场景工作得很好。但当你开始撞到边缘的时候它就很重要了,因为边缘就是幻觉破灭的地方。

人类记忆 vs AI 记忆

一个快速对比能让差异变得具体。

维度 人类记忆 AI 记忆(第 4 层)
编码 经历过程中自动发生;被注意力和情绪塑造 显式——必须有东西来决定"这个值得存"
整合 在睡眠中、在多年中持续发生;记忆会成熟和变化 没有。一个存入的事实会一直保持不变,直到被显式更新
提取 联想式、重建式——一个线索触发相关记忆 关键词 / 向量匹配;档案里的所有内容永远可用
遗忘 渐进、适应性——随时间放下无关的细节 二元——要么手动删除,要么永远记着
情感权重 深度情绪化;重要事件会变得更清晰,而不是更模糊 扁平——"我妈妈去世了"和"我喜欢沙拉"权重一样
连续性 所有情境下的一个统一自我 每平台独立;在 ChatGPT 里有一个"你",在 Claude 里是另一个

最有意思的一行可能是遗忘。人类记忆会策略性遗忘——旧的、不相关的东西慢慢淡去,而重要的东西每次被回忆时都会被重新整合并变得更牢固。AI 记忆没有这种机制。你在 2024 年随口提到过的一个偏好,2026 年还在那里,占着跟你昨天说的东西一样的 token 预算——除非你手动删除。

AI 记忆还做不到什么

理解了四层,就能解释一些今天 AI 记忆让人觉得别扭的地方。

它不会整合。如果你 1 月告诉 ChatGPT 你在用 Vue,4 月你换到了 React,这两条事实都会躺在你的档案里——除非你显式删除旧的。一个人会逐渐更新——新的使用场景会重塑旧的记忆。AI 记忆只是累积,直到你主动修剪。

它不会权衡重要性。没办法告诉 Claude "这个很重要,永远记住"或者 "这是暂时的偏好,可以随便忘"。档案里所有东西权重一样。随着时间推移,重要的东西在噪声里被淹没。

它不会情境化地应用。档案被预拼到每个 prompt 之前——不管是什么类型的任务。如果你在问食谱时告诉过 ChatGPT 你是素食者,这条记忆在你让它调试 Python 代码时也会被注入,悄悄消耗你的 tokens,也可能在某些细微之处影响响应。

它不会跨平台迁移。每个平台都把自己的记忆锁起来。你在 ChatGPT 里积累的档案留在 ChatGPT。Claude 和 Gemini 现在支持通过复制粘贴 prompt 做单向导入(见我们的教程),但那是手动的、有损的过程。不存在跨平台记忆标准。

它不会优雅地遗忘。记忆离开的唯一方式是删除。没有"这个过去相关但现在不相关了"的概念。陈旧的记忆只是继续累积,直到你手动清理。

这些都不是某个平台的 bug。它们是第 4 层实现方式的直接后果——一份扁平的文本文档预拼到每个 prompt 前。想要修复其中任何一条,都需要根本不同的架构。

研究前沿在做什么

几个研究方向在尝试突破这些限制。

真正的长期记忆架构。DeepMind、Meta 和学术界的研究在探索能持续学习而不产生"灾难性遗忘"(神经网络在学习新数据时覆盖旧知识的倾向)的模型。如果这条路走通,模型本身——而不是预拼到 prompt 前的文本档案——可以随时间累积记忆。这将是第 1 层和第 4 层之间第一次真正的桥接。

记忆压缩和整合。不是扁平的档案,而是一个会定期重新总结它知道什么的记忆系统——合并冗余条目,更新过时的,强调重要的。一些创业公司在尝试这种"记忆园艺",但还处于早期。

混合检索。把第 3 层(RAG)和第 4 层(持久档案)融合起来——档案保持小而稳定,同时一个向量存储保存长尾。每次请求触发一次对你完整对话历史的语义查找,只把最相关的片段拉进上下文。这更接近人类记忆的实际工作方式。

本地记忆。把记忆层运行在你自己的设备上而不是云端——为了隐私和延迟。模型仍在云端,但它关于的一切都留在你的机器上。随着个人上下文越来越敏感,这一点越来越重要。

跨平台标准。缺失的那一块。到目前为止没人提出过一个干净、开放的 AI 记忆格式——能在 ChatGPT、Claude、Gemini 以及下一个出现的任何东西之间工作。没有标准,每个用户都会被锁在他第一个使用的那个助手的孤岛里。这也是我决定用 MemoryX 着手解决的问题——一个存在于浏览器侧、独立于任何单一平台的记忆层。

核心要点

  1. AI 记忆不是一个东西。它是四个不同的层——模型权重、上下文窗口、外部检索、持久档案——各自做不同的工作。
  2. LLM 并不真的记得什么。它们通过在每个 prompt 里加载选中的内容来模拟记忆。模型本身从不从你的对话中学习。
  3. 你以为的"ChatGPT 记得我"是第 4 层——一份被预拼到每个请求前的小型结构化档案。这是最新、最薄的一层。
  4. 今天的 AI 记忆不能整合、不能加权、不能情境化、不能迁移、不能优雅地遗忘。这些是架构性的限制,不是 bug。
  5. 研究前沿正在尝试修复这些问题——通过长期记忆架构、记忆压缩、混合检索、跨平台标准。

对于 2026 年认真用 AI 的人来说,实用的含义是:不要把 AI 记忆当黑箱。搞清楚你依赖的是哪一层,接受它的局限,有意识地决定你放进去的东西。未来会带来更好的记忆架构,但这篇文章给的心智模型——四层、模拟 vs 真记忆的差别、平台孤岛——多年内都会继续有用。

如果你已经在被平台锁定记忆的痛苦折磨,MemoryX 博客其他几篇值得看看:ChatGPT vs Claude vs Gemini 的深度对比如何在它们之间手动迁移记忆,以及 MemoryX 是如何从技术上实现跨平台记忆的


MemoryX 是一个 Chrome 扩展,尝试在 ChatGPT、Claude、Gemini 之间建立统一的记忆层——一个关于"当 AI 记忆不被锁在单一平台里时会是什么样"的实验。从 Chrome 商店安装。

厌倦了 AI 记不住你?

MemoryX 是一个浏览器侧的记忆层,跟着你跨越 ChatGPT、Claude 和 Gemini。

从 Chrome 商店安装