解决传统架构记忆瓶颈 MiniMax发布新一代模型
1月15日,解决架构记忆“AI六小虎”之一的传统MiniMax发布并开源了新一代01系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。瓶颈该系列模型使用多项突破性创新,布新以大规模应用线性注意力机制打破了Transformer传统架构的代模记忆瓶颈。 未来,解决架构记忆AI智能体有望成为最重要的传统产品形态,由于智能体处理的瓶颈任务变得越来越复杂,涉及的布新数据量也越来越大,单个智能体的代模记忆以及多个智能体协作间的上下文都会变得越来越长。因此,解决架构记忆长上下文能力与多模态处理能力的传统提升至关重要。 技术上,瓶颈MiniMax-01系列模型首次将线性注意力机制扩展到商用模型的布新级别,受益于此次架构创新,代模该系列模型在处理长输入的时候具有非常高的效率,接近线性复杂度。从规模效应、结构设计、训练优化和推理优化等层面综合考虑,MiniMax选择模型参数量为4560亿,其中每次激活459亿,能够高效处理400万token的上下文,将有效替代Transformer传统架构并开启超长文本输入时代。相较于Gemini等一众全球顶级模型,MiniMax-01随着输入长度变长,性能衰减最慢。 值得注意的是,MiniMax还开源了Text-01模型、VL-01模型的完整权重,以便于更多开发者做有价值、突破性的研究。MiniMax方面表示,“我们认为这有可能启发更多长上下文的研究和应用,从而更快促进Agent时代的到来,二是开源也能促使我们努力做更多创新,更高质量地开展后续的模型研发工作。”
- 最近发表
- 随机阅读
-
- 杨村镇:推进水污染防治攻坚 筑牢生态保护屏障_
- 老龄化程度居全球第一 具体什么情况?
- 迪拜王室回应公主自曝被 具体发生了什么事?
- 费南多道歉怎么回事?费男多就天价罚款发出声明
- 第二艘国产大型邮轮全船主船体贯通 计划2026年交付
- 3月25日19时塞内加尔疫情最新数据消息汇总
- 武汉海王当事人辟谣 到底是怎么一回事??
- 老龄化程度居全球第一 具体什么情况?
- CPI报告公布后美元跌幅收窄
- 东京奥组委回应奖牌掉皮 究竟如何解释的?
- 以色列国防军向黎巴嫩境内开炮 到底什么情况?
- 国台办:欢迎演艺者来发展 具体怎么说的?
- 世界經濟論壇呼籲重建信任以應對挑戰
- 美法德等十国大使服软 到底是怎么回事?
- 白岩松追问通化市原因在哪 究竟怎么回事?
- 台风烟花将二次登陆 或将在华东地区长时间滞留!
- 扎扎实实推进科技强国建设
- 爷爷打电话举报孙子无证飙车 交警叔叔进行教育工作!
- 女足亚洲杯分组出炉:遇 具体分组名单公布!!
- HBO回应权游结局说了什么?权游结局会重拍吗?
- 搜索
-
- 友情链接
-