Loading...

Loading...

Loading...

EverOS：四项内存基准测试中的 SOTA 结果及其对 LLM 智能体的意义

EverOS：四项内存基准测试中的 SOTA 结果及其对 LLM 智能体的意义

我们已发布关于 EverOS 的最新研究，现已在 arXiv 上可查看！大语言模型正迅速从“单轮聊天机器人”演进为长期交互式智能体。但一旦要求智能体在跨越数周的对话中保持连贯，它就会遇到一个现实瓶颈：受限的上下文窗口和碎片化记忆。即使加入检索，许多系统的表现仍像是在提取彼此孤立的片段——常常遗漏冲突、未能更新用户状态，或在时间推移中给出不一致的建议。在我们的最新研究中，我们提出 EverOS——一个自组织记忆操作系统，它不把记忆视为扁平存储，而是视为一个生命周期——其灵感来自生物学“engram”原理——从而使智能体能够持续将原始交互转化为结构化、不断演化的知识。

EverMind研究人员

2026年1月5日

大约需要 3 分钟阅读

EverOS、长期记忆、RAG、上下文、LoCoMo、LongMemEval、PersonaMem

sota

“认知墙”：为什么仅增加上下文还不够

一个直接的长期一致性解决方案是扩展上下文窗口。但超长上下文可能成本高昂，而且效果仍会下降（例如“中间丢失”行为）。更重要的是，许多真实失败并不是由信息缺失造成的——而是由整合不佳造成的：代理可能检索到相关事实，却无法将其整合为稳定概念，检测矛盾，或维持一致的用户模型。

EverOS 的核心基于一个简单论点：

长期智能体的未来，更依赖结构化记忆组织，而不是蛮力式的上下文扩展。

一句话概括 EverOS

EverOS 是一个记忆操作系统，它通过三阶段记忆生命周期将无限制的交互流转化为结构化的“数字大脑”：

情景痕迹形成
语义整合
重建式回忆

阶段 I — 情景痕迹形成：从对话流到 MemCell

EverOS 引入了一个核心记忆原语：MemCell，一种连接底层日志与高层语义的原子单元。

MemCell 定义为一个元组：

E（Episode）： 对发生事件的简洁第三人称叙述（一个稳定的语义锚点）
F（Atomic Facts，原子事实）： 从该情景中提炼出的离散、可验证陈述，用于高精度匹配
P（Foresight，前瞻）： 带有有效期 [tstart, tend] 标注的前瞻性推断（计划、临时状态），用于时间感知
M（Metadata，元数据）： 用于落地对齐的时间戳和来源指针

为了从嘈杂对话中稳健地创建 MemCell，EverOS 使用的流水线包括：

语义边界检测 （将连续流切分为连贯的情景），
叙事综合 （消解指代/歧义，整理为干净的情景），
对原子事实 + 有时间边界的前瞻信号进行结构化推导。

阶段 II — 语义整合：自组织的“MemScene” + 用户画像演化

如果 MemCell 是原子，那么 MemScene 就是让智能体保持一致性的主题。

在语义整合阶段，EverOS 执行在线增量聚类：

当新的 MemCell 到达时，它会将该单元与现有的 MemScene 中心进行比较。
如果相似度超过阈值 τ，则将该 MemCell 并入；否则，创建一个新的 MemScene。

更关键的是，整合还会驱动用户画像演化：

EverOS 不再直接对原始聊天日志进行提示，而是从场景摘要更新一个紧凑的 User Profile（用户画像） ，从而帮助区分稳定特征与短暂状态，并跟踪随时间出现的冲突。

这正是许多“扁平式检索”记忆系统所忽略的部分：将结构化整合作为一等系统行为。

阶段 III — 重建式回忆：“必要且充分”的上下文，而不是最大化回忆

在 EverOS 中，检索不被视为一次性的查找。它被建模为一个主动重建过程，并遵循如下原则：

必要且充分：只检索回答所需的内容——不多不少。

在高层上，EverOS：

选择相关的 MemScene，
使用混合检索获取情景（MemCell），
并通过迭代检查（例如充分性验证 + 查询重写）来避免检索不足和“提示膨胀”。

结果

EverOS 已在四个主要长期记忆基准上取得最先进（SOTA）结果：

LoCoMo： 以极少得多的 token 在所有现有记忆系统甚至完整上下文的大模型之上取得更优表现（整体准确率 93.05%）。

LongMemEval：取得领先的 83.00% 准确率，尤其在知识更新和时间推理方面提升显著。

HaluMem：在记忆完整性和准确性方面设定了新标准（90.04% 回忆率）。

PersonaMem v2：在多样化场景下展现了更强的深度个性化和行为一致性。

这对真实智能体为何重要（超越基准）

当今的基准测试高度关注答案层面的正确性。但真实助手还必须处理：

相互冲突的偏好与新的约束，
稳定的个性化，
带时间边界的状态（药物、截止日期、临时计划），
以及主动的、基于经验的“前瞻”。

EverOS 显式构建了记忆表示（如具有时间有效期的前瞻）和系统行为（语义整合）来支持这些智能体需求，并通过定性案例研究加以展示。

下一步是什么（以及如何尝试）

EverOS 被设计为一个系统级基础：一个可以接入不同智能体栈和任务的记忆操作系统，同时保持一致的生命周期契约，用于构建和使用记忆。

论文 + 代码：

arXiv 页面： https://arxiv.org/abs/2601.02163

代码： https://github.com/EverMind-AI/EverOS

Loading...

Loading...

Loading...

您可能还喜欢这些

相关

mRAG

2026年5月11日

介绍 mRAG：EverOS 如何检索真正重要的信息

mRAG，多模态，多模态检索，RAG

AI 记忆演进

2026年5月11日

介绍自我进化的智能体记忆：EverOS 如何帮助您的 AI 智能体从经验中学习

自我进化的智能体记忆、智能体记忆、自我进化、智能体技能、智能体案例

1亿个 token

2026年5月11日

突破 1 亿 Token 限制：MSA 架构为 LLM 实现高效端到端长期记忆

长期记忆、RAG、上下文、AI 智能体、OpenClaw、稀疏注意力、Transformer、LLM、KV 缓存

人工智能记忆系统统一评估框架

2026年5月11日

人工智能记忆系统统一评估框架

AI 记忆、评估框架、EverOS、Mem0、MemU、ZEP、MemOS、LoCoMo、LongMemEval

EverOS：四项内存基准测试中的 SOTA 结果及其对 LLM 智能体的意义

我们已发布关于 EverOS 的最新研究，现已在 arXiv 上可查看！大语言模型正迅速从“单轮聊天机器人”演进为长期交互式智能体。但一旦要求智能体在跨越数周的对话中保持连贯，它就会遇到一个现实瓶颈：受限的上下文窗口和碎片化记忆。即使加入检索，许多系统的表现仍像是在提取彼此孤立的片段——常常遗漏冲突、未能更新用户状态，或在时间推移中给出不一致的建议。在我们的最新研究中，我们提出 EverOS——一个自组织记忆操作系统，它不把记忆视为扁平存储，而是视为一个生命周期——其灵感来自生物学“engram”原理——从而使智能体能够持续将原始交互转化为结构化、不断演化的知识。

EverMind研究人员

2026年1月5日

大约需要 3 分钟阅读

EverOS、长期记忆、RAG、上下文、LoCoMo、LongMemEval、PersonaMem

Loading...

EverMind

GitHub 图标

登录

产品

学院

生态系统

文档

关于我们

EverMind

GitHub 图标

EverMind

长期连贯性的直接解决方案

社区

LinkedIn

关于

常见问题

条款与政策

服务条款

隐私政策

© 2026 EverMind 团队。

EverMind

长期连贯性的直接解决方案

社区

LinkedIn

关于

常见问题

条款与政策

服务条款

隐私政策

© 2026 EverMind 团队。

EverMind

长期连贯性的直接解决方案

社区

LinkedIn

关于

常见问题

条款与政策

服务条款

隐私政策

© 2026 EverMind 团队。