
“认知墙”:为什么仅增加上下文还不够
一个直接的长期一致性解决方案是扩展上下文窗口。但超长上下文可能成本高昂,而且效果仍会下降(例如“中间丢失”行为)。更重要的是,许多真实失败并不是由信息缺失造成的——而是由整合不佳造成的:代理可能检索到相关事实,却无法将其整合为稳定概念,检测矛盾,或维持一致的用户模型。
EverOS 的核心基于一个简单论点:
长期智能体的未来,更依赖结构化记忆组织,而不是蛮力式的上下文扩展。
一句话概括 EverOS
EverOS 是一个记忆操作系统,它通过三阶段记忆生命周期将无限制的交互流转化为结构化的“数字大脑”:
情景痕迹形成
语义整合
重建式回忆
阶段 I — 情景痕迹形成:从对话流到 MemCell
EverOS 引入了一个核心记忆原语:MemCell,一种连接底层日志与高层语义的原子单元。
MemCell 定义为一个元组:
E(Episode): 对发生事件的简洁第三人称叙述(一个稳定的语义锚点)
F(Atomic Facts,原子事实): 从该情景中提炼出的离散、可验证陈述,用于高精度匹配
P(Foresight,前瞻): 带有有效期 [tstart, tend] 标注的前瞻性推断(计划、临时状态),用于时间感知
M(Metadata,元数据): 用于落地对齐的时间戳和来源指针
为了从嘈杂对话中稳健地创建 MemCell,EverOS 使用的流水线包括:
语义边界检测 (将连续流切分为连贯的情景),
叙事综合 (消解指代/歧义,整理为干净的情景),
对原子事实 + 有时间边界的前瞻信号进行结构化推导。
阶段 II — 语义整合:自组织的“MemScene” + 用户画像演化
如果 MemCell 是原子,那么 MemScene 就是让智能体保持一致性的主题。
在语义整合阶段,EverOS 执行在线增量聚类:
当新的 MemCell 到达时,它会将该单元与现有的 MemScene 中心进行比较。
如果相似度超过阈值 τ,则将该 MemCell 并入;否则,创建一个新的 MemScene。
更关键的是,整合还会驱动用户画像演化:
EverOS 不再直接对原始聊天日志进行提示,而是从场景摘要更新一个紧凑的 User Profile(用户画像) ,从而帮助区分稳定特征与短暂状态,并跟踪随时间出现的冲突。
这正是许多“扁平式检索”记忆系统所忽略的部分:将结构化整合作为一等系统行为。
阶段 III — 重建式回忆:“必要且充分”的上下文,而不是最大化回忆
在 EverOS 中,检索不被视为一次性的查找。它被建模为一个主动重建过程,并遵循如下原则:
必要且充分:只检索回答所需的内容——不多不少。
在高层上,EverOS:
选择相关的 MemScene,
使用混合检索获取情景(MemCell),
并通过迭代检查(例如充分性验证 + 查询重写)来避免检索不足和“提示膨胀”。
结果
EverOS 已在四个主要长期记忆基准上取得最先进(SOTA)结果:
LoCoMo: 以极少得多的 token 在所有现有记忆系统甚至完整上下文的大模型之上取得更优表现(整体准确率 93.05%)。
LongMemEval:取得领先的 83.00% 准确率,尤其在知识更新和时间推理方面提升显著。
HaluMem:在记忆完整性和准确性方面设定了新标准(90.04% 回忆率)。
PersonaMem v2:在多样化场景下展现了更强的深度个性化和行为一致性。
这对真实智能体为何重要(超越基准)
当今的基准测试高度关注答案层面的正确性。但真实助手还必须处理:
相互冲突的偏好与新的约束,
稳定的个性化,
带时间边界的状态(药物、截止日期、临时计划),
以及主动的、基于经验的“前瞻”。
EverOS 显式构建了记忆表示(如具有时间有效期的前瞻)和系统行为(语义整合)来支持这些智能体需求,并通过定性案例研究加以展示。
下一步是什么(以及如何尝试)
EverOS 被设计为一个系统级基础:一个可以接入不同智能体栈和任务的记忆操作系统,同时保持一致的生命周期契约,用于构建和使用记忆。
论文 + 代码:
arXiv 页面: https://arxiv.org/abs/2601.02163
代码: https://github.com/EverMind-AI/EverOS
您可能还喜欢这些
相关

介绍 mRAG:EverOS 如何检索真正重要的信息
mRAG,多模态,多模态检索,RAG

介绍自我进化的智能体记忆:EverOS 如何帮助您的 AI 智能体从经验中学习
自我进化的智能体记忆、智能体记忆、自我进化、智能体技能、智能体案例

突破 1 亿 Token 限制:MSA 架构为 LLM 实现高效端到端长期记忆
长期记忆、RAG、上下文、AI 智能体、OpenClaw、稀疏注意力、Transformer、LLM、KV 缓存

人工智能记忆系统统一评估框架
AI 记忆、评估框架、EverOS、Mem0、MemU、ZEP、MemOS、LoCoMo、LongMemEval
