解析梁文锋最新论文
创始人
2026-01-14 11:22:48

新京报贝壳财经记者 罗亦丹 实习生 郭雯华 编辑 岳彩周 校对 付春愔

1月12日晚间,DeepSeek发布梁文锋署名的新论文,主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(直译为基于可扩展查找的条件记忆:大语言模型稀疏性的新维度),这也是2026开年至今,DeepSeek团队的第二篇重磅论文。

此前,在1月1日发布的论文中,DeepSeek提出一种名为“mHC”(直译为“流形约束超连接”)的框架,可以有效解决大模型训练中的稳定性问题。而在本次发布的论文中,DeepSeek联合北京大学提出了“条件记忆”这一概念,直指当前大语言模型基础架构Transformer在知识检索方面存在的低效和算力消耗问题。

在这篇论文里,DeepSeek通过创新的Engram(直译为:记忆痕迹)架构为模型规模化扩展提供了新的技术路径,若以简单的比喻来理解,就是DeepSeek设计了一种新架构,将大模型的“条件记忆”和“计算”分开,最终达到了降低错误、节省算力的目的。

预印本网站上DeepSeek的论文页面截图,红框为梁文锋名字。

大模型“痛点”:简单问题需要复杂推理,容易“遗忘”

许多AI大模型用户均曾在使用过程中发现过一个现象:AI会偶尔“忘记”自己曾经说过的话。对于这一问题,有AI聊天重度用户曾对记者表示,可以通过再次“提醒”的方式来让AI重复记起,ChatGPT等应用也对此进行过设置,让用户可以保存一些较为重要的信息到“长期记忆”中。

然而,这一切只能“治标”不能“治本”。究其原因,根据美国约翰斯·霍普金斯大学和中国人民大学的研究团队2025年3月发布的论文《大型语言模型不具备类人工作记忆》(LLMs Do Not Have Human-Like Working Memory),大语言模型所依赖的“上下文窗口”与工作记忆存在本质区别。

根据研究人员测试,模型在处理超过5轮的多步骤逻辑推理任务时,会出现关键信息丢失的现象,在长文本生成场景下,前文设定的人物关系、情节线索极易发生偏差。

究其原因,在多轮对话中,早期输入的关键信息会随着对话轮次增加而逐渐衰减,最终被新信息覆盖。这种 “答后忘前”的现象,本质是模型的短时记忆无法有效转化为长期可用的知识。另一方面,密集型注意力计算模式下,记忆存储与逻辑推理共享算力资源,二者存在天然的资源竞争关系 —— 模型难以同时兼顾 “记住更多信息” 与 “精准完成推理”。

这一背景下,DeepSeek则保持了一贯的“省钱”作风,看到了这之中存在的算力消耗问题。梁文锋署名的新论文表示,语言建模本质上包含两类子任务:一类是组合式推理,需要依赖深层、动态计算完成;另一类是知识检索,面向命名实体等相对静态的内容,理论上可以通过简单查找更高效地处理。然而,现有Transformer架构缺乏原生的查找组件,遇到这类静态信息时往往仍要反复调用深层网络进行重建,从而加剧算力浪费并推高推理成本。

DeepSeek在论文中指出,当前主流模型在内部运行方式上仍存在明显低效。大量固定知识和常见语言模式并不需要复杂推理,但模型在推理时往往仍要通过多层计算重新构建相关信息,导致算力被大量消耗在记忆相关操作上。在长文本和知识密集型任务中,这一问题更为突出,重复静态信息的重建会增加额外的推理开销并拉长推理链路。

首创MoE+Engram双稀疏轴架构,实现“推理+检索”分工协作

那么,如何解决上述问题呢?

根据DeepSeek的论文,研究人员首次将条件记忆(Conditional Memory)作为混合专家模型(MoE)条件计算的互补维度,提出计算与记忆双稀疏轴的设计思路,这也是此次研究的核心创新点。

所谓“条件记忆”,是指模型能够基于输入中的局部上下文模式,以常数时间从大规模参数化记忆中检索并融合静态知识表示,从而避免在推理过程中反复通过深层计算重建高频、模板化信息,类似于人类在面对熟悉知识时直接调用既有记忆,而非重新推导。

Engram架构示意图 来源:DeepSeek论文截图

具体而言,条件记忆通过Engram模块(记忆痕迹)实现静态知识存储与动态计算的分离,达成静态模式的常数时间O(1)查找。其核心逻辑是为语言建模的两类子任务进行分工:MoE专注处理需要深层思考的组合式推理任务,Engram则依托条件记忆机制负责静态知识的快速检索,从架构上优化了算力资源分配,改变了传统模型用计算模拟记忆的低效模式。当大约20%至25%的稀疏参数预算分配给Engram,剩余部分留给MoE时(75% -80%),模型性能达到最佳。

这种稀疏性设计带来两大优势:一是大幅降低算力消耗,静默状态的记忆资源不占用计算资源,提升模型运行效率;二是拓展记忆容量,稀疏存储模式可支持更大规模的知识存入,突破传统注意力窗口的物理限制。

论文给出了这一新方案在准确性上所得到的提升:在长上下文检索方面,研究人员采用业内公认的两个长上下文评测基准。实验结果显示,在32k上下文长度下,Engram-27B 在多项 Needle-in-a-Haystack(NIAH)任务中显著优于MoE基线模型,Multi-Query NIAH的准确率从 84.2%提升至97.0%,Variable Tracking从77.0%提升至89.0%。

目前,该研究的代码已开源,DeepSeek团队在论文最后表示,“我们认为条件记忆函数是下一代稀疏模型中不可或缺的建模基元。”这一表述的背后,是行业对大模型技术演进方向的共识——当参数竞赛进入瓶颈期,稀疏性设计将成为提升模型效率与能力的核心路径,而条件记忆或许可以成为稀疏模型在记忆领域的关键突破。

在业界猜测DeepSeek下一代模型将于春节前发布的背景下,这篇论文的出现颇具风向标意义,论文提出的技术范式也为大模型的底层架构创新提供了新的思路。

相关内容

洪山菜薹“跨界”成水果?武...
湖北日报讯(记者冯袁玥)近日,武汉楚天181文化创意产业园内飘来阵...
2026-01-14 14:43:16
【理响中国·薪火“燃”青春...
  作者:胡文涛(中国社会科学院生态文明研究所副研究员)  党的二...
2026-01-14 13:06:12
襄阳政协委员报到 共商发展
荆楚网(湖北日报网)讯(记者 刘雪松)1月12日,参加政协襄阳市第...
2026-01-14 12:22:59
年节盛事“氛围担当”赶制订...
  央视网消息:尽管距离农历马年还有一段时间,但是眼下各地的花灯已...
2026-01-14 11:43:23
解析梁文锋最新论文
新京报贝壳财经记者 罗亦丹 实习生 郭雯华 编辑 岳彩周 校对 付...
2026-01-14 11:22:48
风雨无阻守平安
  近日,中央宣传部、公安部向全社会发布2025年“最美基层民警”...
2026-01-14 10:52:49

热门资讯

洪山菜薹“跨界”成水果?武汉特... 湖北日报讯(记者冯袁玥)近日,武汉楚天181文化创意产业园内飘来阵阵清香,来自湖北特产精品馆推出的可...
【理响中国·薪火“燃”青春】以...   作者:胡文涛(中国社会科学院生态文明研究所副研究员)  党的二十届四中全会提出,坚持把发展经济的...
襄阳政协委员报到 共商发展 荆楚网(湖北日报网)讯(记者 刘雪松)1月12日,参加政协襄阳市第十五届委员会第五次会议的政协委员正...
年节盛事“氛围担当”赶制订单生...   央视网消息:尽管距离农历马年还有一段时间,但是眼下各地的花灯已经进入了生产和销售的旺季。红红火火...
解析梁文锋最新论文 新京报贝壳财经记者 罗亦丹 实习生 郭雯华 编辑 岳彩周 校对 付春愔 1月12日晚间,DeepSe...
风雨无阻守平安   近日,中央宣传部、公安部向全社会发布2025年“最美基层民警”。张雷、连捷、任飞等20名同志光荣...
我国首个古建筑木材科学数据共享...   科技日报记者 马爱平  记者13日从中国林业科学研究院木材工业研究所获悉,我国首个古建筑木材科学...
各地推出新举措持续激发冰雪经济...   央视网消息(新闻联播):这个雪季,各地创新举措丰富供给,持续激发冰雪消费潜力。  吉林长春的15...
“中国是我的‘第二故乡’”(缘...   编者按:国之交在于民相亲。人民友好是国际关系行稳致远的基础,是促进世界和平和发展的不竭动力。多年...
“颗粒度”更细,幸福度更高(人...   习近平主席在二〇二六年新年贺词中回顾2025年“我们共创共享美好生活”,并深情寄语:“柴米油盐、...
美国放宽H200芯片出口中国管... 据央视新闻消息,当地时间1月13日,据美国联邦公报显示, 美国放宽了对英伟达H200芯片出口到中国的...
空气污染问题困扰印度多地   根据印度能源与清洁空气研究中心最新发布的调研结果,印度近44%的城镇存在“长期空气污染”,这些地...
宜昌松宜矿区生态修复项目入选全... 湖北日报讯 (记者余宽宏、通讯员黄月娥、王光禹)从宜昌市自然资源和城乡建设局获悉,1月9日,财政部、...
十堰重奖39名“地灾哨兵” 最... 湖北日报讯 (记者刘胜、通讯员杨占鳌)“要不是李书记及时赶到,我们这几十口人可能都没了!”近日,在十...
柬埔寨首相誓言铲除电信诈骗犯罪   中新社金边1月13日电 (杨强  强宝仪)柬埔寨首相洪玛奈当地时间13日晚表示,柬政府将打击电信...
连续监测数据显示:莱茵河年输海...   科技日报记者 张梦然  新一期《通讯·可持续性》杂志发表的一项研究显示,莱茵河每年向海洋输送的大...
这些标志性节点,映照央企海外精...   中国东航“上海—奥克兰—布宜诺斯艾利斯”航线开通当日,飞机抵达布宜诺斯艾利斯机场。  管毓莹摄 ...
全国铁路将调图 北京与延安间首...   新华社北京1月13日电 (记者 樊曦) 记者1月13日从中国国家铁路集团有限公司获悉,1月26日...
这部情景剧演的都是真实故事 真... 1月13日,情景剧《科创路上的金融暖阳》在2025年(第六届)湖北财经风云榜活动上演出。 (湖...