而在1月20日,正值DeepSeek-R1发布满一周年之际,有开发者在GitHub上发现,DeepSeek更新了一系列FlashMLA代码。在这些更新中,横跨114个文件的28处位置都提到了一个未知的“MODEL1”大模型标识符。值得注意的是,这个标识符与已知的现有模型“V32”(即DeepSeek-V3.2)是并列或区别提及的。

通过深入分析代码上下文,开发者们推测,“MODEL1”很可能代表着一个与现有架构截然不同的新模型。具体来说,“MODEL1”与“V32”在关键技术上存在显著差异,主要体现在键值(KV)缓存的布局、稀疏性处理方式,以及对FP8数据格式的解码支持等方面。这些差异表明,新架构可能在内存优化和计算效率上进行了有针对性的设计。
此外,DeepSeek研究团队还陆续发布了两篇技术论文,分别介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)”。这一系列动作不禁让外界猜测,DeepSeek正在开发中的新模型有可能会整合这些最新的研究成果。
网站导航

相关文章
精彩导读
热门资讯