解决传统架构记忆瓶颈 MiniMax发布新一代模型
1月15日,解决架构记忆“AI六小虎”之一的传统MiniMax发布并开源了新一代01系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。瓶颈该系列模型使用多项突破性创新,布新以大规模应用线性注意力机制打破了Transformer传统架构的代模记忆瓶颈。 未来,解决架构记忆AI智能体有望成为最重要的传统产品形态,由于智能体处理的瓶颈任务变得越来越复杂,涉及的布新数据量也越来越大,单个智能体的代模记忆以及多个智能体协作间的上下文都会变得越来越长。因此,解决架构记忆长上下文能力与多模态处理能力的传统提升至关重要。 技术上,瓶颈MiniMax-01系列模型首次将线性注意力机制扩展到商用模型的布新级别,受益于此次架构创新,代模该系列模型在处理长输入的时候具有非常高的效率,接近线性复杂度。从规模效应、结构设计、训练优化和推理优化等层面综合考虑,MiniMax选择模型参数量为4560亿,其中每次激活459亿,能够高效处理400万token的上下文,将有效替代Transformer传统架构并开启超长文本输入时代。相较于Gemini等一众全球顶级模型,MiniMax-01随着输入长度变长,性能衰减最慢。 值得注意的是,MiniMax还开源了Text-01模型、VL-01模型的完整权重,以便于更多开发者做有价值、突破性的研究。MiniMax方面表示,“我们认为这有可能启发更多长上下文的研究和应用,从而更快促进Agent时代的到来,二是开源也能促使我们努力做更多创新,更高质量地开展后续的模型研发工作。”
- 最近发表
- 随机阅读
-
- 辽宁:推动标准化工作创新发展
- 汉源县新堰社区入围2019四川特色村
- 恒大風暴,投資人該知道什麼|天下雜誌
- 任天堂起訴美國軟件開發商侵權 被告同意繳付240萬美元賠償
- 一票游三城 高铁旅游计次票再上新,怎么买如何用?
- 中國壓價 銅價還有戲嗎?|天下雜誌
- 天下晨間新聞 台灣、加拿大深化關係,初探FIPA|天下雜誌
- 2013年诺贝尔奖10月7日起陆续揭晓—新闻—科学网
- 水果切开卖比整颗贵几倍,“果切刺客”爱它你怕了吗?
- “无塑开学”不能停留在纸面上
- 以色列國防軍稱空襲加沙地帶中部多個哈馬斯軍事據點
- 聚焦整治过度包装与天价月饼
- “威海预付保”平台再升级,2800多家商户已入驻
- 市经开区召开2024年新春企业家恳谈会
- 潘集区村干部报酬实行级差化管理
- 川西南片区第27届军队离退休干部门球邀请赛圆满落幕
- 选择:两厢车还是三厢车? 纠结:到底要不要“尾巴”?
- 娴峰皵鍑€姘存礂鐑按鍣ㄥ彲浠ュ幓闄ゆ礂婢℃按涓殑浣欐隘銆佹偿娌欍€佺粏鑿宊涓浗灞变笢缃慱闈掑矝
- 成都成华区教育局通报高二学生坠亡,家属:不认同
- 馬克龍仍稱不排除向烏克蘭派兵
- 搜索
-
- 友情链接
-