Gate 广场创作者新春激励正式开启,发帖解锁 $60,000 豪华奖池
如何参与:
报名活动表单:https://www.gate.com/questionnaire/7315
使用广场任意发帖小工具,搭配文字发布内容即可
丰厚奖励一览:
发帖即可可瓜分 $25,000 奖池
10 位幸运用户:获得 1 GT + Gate 鸭舌帽
Top 发帖奖励:发帖与互动越多,排名越高,赢取 Gate 新年周边、Gate 双肩包等好礼
新手专属福利:首帖即得 $50 奖励,继续发帖还能瓜分 $10,000 新手奖池
活动时间:2026 年 1 月 8 日 16:00 – 1 月 26 日 24:00(UTC+8)
详情:https://www.gate.com/announcements/article/49112
DeepSeek 发布多重约束超连接架构以克服网络训练难题
DeepSeek 发布了开创性研究,介绍了一种新颖的网络架构——流形约束超连接 (mHC),在解决现有超连接网络 (HC) 系统中的基本挑战方面取得了重大突破。
问题:训练不稳定性和可扩展性限制
传统的超连接网络面临一个关键瓶颈——在训练过程中身份映射属性的崩溃导致广泛的不稳定性,并严重限制系统的扩展能力。随着模型规模的扩大,这些扰动会积累,造成性能下降,限制了基础模型开发的实际应用。
解决方案:基于流形的约束
创新的 mHC 架构通过一种复杂的方法应对这一挑战:它将 HC 的残差连接空间重新映射到受约束的流形几何上。通过在超连接拓扑结构上强制执行流形约束,该架构成功地在整个训练过程中恢复并保持身份映射特性。这一结构创新辅以严格的基础设施优化,确保理论的合理性和计算效率。
性能突破与可扩展性提升
结果充分证明了——mHC 相较于标准超连接网络带来了显著的性能提升,同时展现出优越的可扩展性。该架构即使在模型复杂度和规模增加时也能保持稳定,为下一代基础模型开辟了新的可能性。
学术贡献与未来影响
由谢震达、韦一轩、曹焕奇和梁文峰等第一作者带头的这项研究,将 mHC 定位为现有 HC 框架的实用且具有适应性的扩展。通过基于流形的约束,建立了更清晰的拓扑架构设计原则,为理解未来模型如何实现更高的稳定性和效率提供了坚实基础。DeepSeek 预期这些见解将引导基础模型架构的演进,迈向更稳健、更具扩展性的系统。