DeepSeek V4或将于农历新年推出，代码更新揭示未知大模型“MODEL1”

　　1月21日消息，据The Information月初的爆料，AI领域知名企业DeepSeek计划在今年2月中旬的农历新年期间，推出其新一代旗舰AI模型——DeepSeek V4。据称，该模型将具备更为强大的代码编写能力。

　　而在1月20日，正值DeepSeek-R1发布满一周年之际，有开发者在GitHub上发现，DeepSeek更新了一系列FlashMLA代码。在这些更新中，横跨114个文件的28处位置都提到了一个未知的“MODEL1”大模型标识符。值得注意的是，这个标识符与已知的现有模型“V32”（即DeepSeek-V3.2）是并列或区别提及的。

　　通过深入分析代码上下文，开发者们推测，“MODEL1”很可能代表着一个与现有架构截然不同的新模型。具体来说，“MODEL1”与“V32”在关键技术上存在显著差异，主要体现在键值（KV）缓存的布局、稀疏性处理方式，以及对FP8数据格式的解码支持等方面。这些差异表明，新架构可能在内存优化和计算效率上进行了有针对性的设计。

　　此外，DeepSeek研究团队还陆续发布了两篇技术论文，分别介绍了名为“优化残差连接（mHC）”的新训练方法，以及一种受生物学启发的“AI记忆模块（Engram）”。这一系列动作不禁让外界猜测，DeepSeek正在开发中的新模型有可能会整合这些最新的研究成果。

页面链接： https://news.znds.com/article/news/69184.html