Loading...
Loading...
Loading...

EverOS:四项内存基准测试中的 SOTA 结果及其对 LLM 智能体的意义

EverOS:四项内存基准测试中的 SOTA 结果及其对 LLM 智能体的意义

我们已发布关于 EverOS 的最新研究,现已在 arXiv 上可查看! 大语言模型正迅速从“单轮聊天机器人”演进为长期交互式智能体。但一旦要求智能体在跨越数周的对话中保持连贯,它就会遇到一个现实瓶颈:受限的上下文窗口和碎片化记忆。即使加入检索,许多系统的表现仍像是在提取彼此孤立的片段——常常遗漏冲突、未能更新用户状态,或在时间推移中给出不一致的建议。 在我们的最新研究中,我们提出 EverOS——一个自组织记忆操作系统,它不把记忆视为扁平存储,而是视为一个生命周期——其灵感来自生物学“engram”原理——从而使智能体能够持续将原始交互转化为结构化、不断演化的知识。

EverMind研究人员

大约需要 3 分钟阅读

EverOS、长期记忆、RAG、上下文、LoCoMo、LongMemEval、PersonaMem
sota

“认知墙”:为什么仅增加上下文还不够

一个直接的长期一致性解决方案是扩展上下文窗口。但超长上下文可能成本高昂,而且效果仍会下降(例如“中间丢失”行为)。更重要的是,许多真实失败并不是由信息缺失造成的——而是由整合不佳造成的:代理可能检索到相关事实,却无法将其整合为稳定概念,检测矛盾,或维持一致的用户模型。

EverOS 的核心基于一个简单论点:

长期智能体的未来,更依赖结构化记忆组织,而不是蛮力式的上下文扩展。

一句话概括 EverOS

EverOS 是一个记忆操作系统,它通过三阶段记忆生命周期将无限制的交互流转化为结构化的“数字大脑”:

  1. 情景痕迹形成

  2. 语义整合

  3. 重建式回忆 

阶段 I — 情景痕迹形成:从对话流到 MemCell

EverOS 引入了一个核心记忆原语:MemCell,一种连接底层日志与高层语义的原子单元。

MemCell 定义为一个元组:

  • E(Episode): 对发生事件的简洁第三人称叙述(一个稳定的语义锚点)

  • F(Atomic Facts,原子事实): 从该情景中提炼出的离散、可验证陈述,用于高精度匹配

  • P(Foresight,前瞻): 带有有效期 [tstart, tend] 标注的前瞻性推断(计划、临时状态),用于时间感知

  • M(Metadata,元数据): 用于落地对齐的时间戳和来源指针

为了从嘈杂对话中稳健地创建 MemCell,EverOS 使用的流水线包括:

  • 语义边界检测 (将连续流切分为连贯的情景),

  • 叙事综合 (消解指代/歧义,整理为干净的情景),

  • 对原子事实 + 有时间边界的前瞻信号进行结构化推导

阶段 II — 语义整合:自组织的“MemScene” + 用户画像演化

如果 MemCell 是原子,那么 MemScene 就是让智能体保持一致性的主题

在语义整合阶段,EverOS 执行在线增量聚类

  • 当新的 MemCell 到达时,它会将该单元与现有的 MemScene 中心进行比较。

  • 如果相似度超过阈值 τ,则将该 MemCell 并入;否则,创建一个新的 MemScene。

更关键的是,整合还会驱动用户画像演化

  • EverOS 不再直接对原始聊天日志进行提示,而是从场景摘要更新一个紧凑的 User Profile(用户画像) ,从而帮助区分稳定特征与短暂状态,并跟踪随时间出现的冲突。

这正是许多“扁平式检索”记忆系统所忽略的部分:将结构化整合作为一等系统行为。

阶段 III — 重建式回忆:“必要且充分”的上下文,而不是最大化回忆

在 EverOS 中,检索不被视为一次性的查找。它被建模为一个主动重建过程,并遵循如下原则:

必要且充分:只检索回答所需的内容——不多不少。

在高层上,EverOS:

  • 选择相关的 MemScene,

  • 使用混合检索获取情景(MemCell),

  • 并通过迭代检查(例如充分性验证 + 查询重写)来避免检索不足和“提示膨胀”。

结果

EverOS 已在四个主要长期记忆基准上取得最先进(SOTA)结果:

LoCoMo: 以极少得多的 token 在所有现有记忆系统甚至完整上下文的大模型之上取得更优表现(整体准确率 93.05%)。

LongMemEval:取得领先的 83.00% 准确率,尤其在知识更新和时间推理方面提升显著。

HaluMem:在记忆完整性和准确性方面设定了新标准(90.04% 回忆率)。

PersonaMem v2:在多样化场景下展现了更强的深度个性化和行为一致性。

这对真实智能体为何重要(超越基准)

当今的基准测试高度关注答案层面的正确性。但真实助手还必须处理:

  • 相互冲突的偏好与新的约束,

  • 稳定的个性化,

  • 带时间边界的状态(药物、截止日期、临时计划),

  • 以及主动的、基于经验的“前瞻”。

EverOS 显式构建了记忆表示(如具有时间有效期的前瞻)和系统行为(语义整合)来支持这些智能体需求,并通过定性案例研究加以展示。

下一步是什么(以及如何尝试)

EverOS 被设计为一个系统级基础:一个可以接入不同智能体栈和任务的记忆操作系统,同时保持一致的生命周期契约,用于构建和使用记忆。

论文 + 代码:

arXiv 页面:  https://arxiv.org/abs/2601.02163

代码:        https://github.com/EverMind-AI/EverOS


Loading...
Loading...
Loading...

您可能还喜欢这些

相关

mRAG

介绍 mRAG:EverOS 如何检索真正重要的信息

mRAG,多模态,多模态检索,RAG

AI 记忆演进

介绍自我进化的智能体记忆:EverOS 如何帮助您的 AI 智能体从经验中学习

自我进化的智能体记忆、智能体记忆、自我进化、智能体技能、智能体案例

1亿个 token

突破 1 亿 Token 限制:MSA 架构为 LLM 实现高效端到端长期记忆

长期记忆、RAG、上下文、AI 智能体、OpenClaw、稀疏注意力、Transformer、LLM、KV 缓存

人工智能记忆系统统一评估框架

人工智能记忆系统统一评估框架

AI 记忆、评估框架、EverOS、Mem0、MemU、ZEP、MemOS、LoCoMo、LongMemEval

EverOS:四项内存基准测试中的 SOTA 结果及其对 LLM 智能体的意义

我们已发布关于 EverOS 的最新研究,现已在 arXiv 上可查看! 大语言模型正迅速从“单轮聊天机器人”演进为长期交互式智能体。但一旦要求智能体在跨越数周的对话中保持连贯,它就会遇到一个现实瓶颈:受限的上下文窗口和碎片化记忆。即使加入检索,许多系统的表现仍像是在提取彼此孤立的片段——常常遗漏冲突、未能更新用户状态,或在时间推移中给出不一致的建议。 在我们的最新研究中,我们提出 EverOS——一个自组织记忆操作系统,它不把记忆视为扁平存储,而是视为一个生命周期——其灵感来自生物学“engram”原理——从而使智能体能够持续将原始交互转化为结构化、不断演化的知识。

EverMind研究人员

大约需要 3 分钟阅读

EverOS、长期记忆、RAG、上下文、LoCoMo、LongMemEval、PersonaMem
Loading...

EverMind

长期连贯性的直接解决方案

© 2026 EverMind 团队。

EverMind

长期连贯性的直接解决方案

© 2026 EverMind 团队。

EverMind

长期连贯性的直接解决方案

© 2026 EverMind 团队。