解决传统架构记忆瓶颈 MiniMax发布新一代模型
1月15日,解决架构记忆“AI六小虎”之一的传统MiniMax发布并开源了新一代01系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。瓶颈该系列模型使用多项突破性创新,布新以大规模应用线性注意力机制打破了Transformer传统架构的代模记忆瓶颈。
未来,解决架构记忆AI智能体有望成为最重要的传统产品形态,由于智能体处理的瓶颈任务变得越来越复杂,涉及的布新数据量也越来越大,单个智能体的代模记忆以及多个智能体协作间的上下文都会变得越来越长。因此,解决架构记忆长上下文能力与多模态处理能力的传统提升至关重要。
技术上,瓶颈MiniMax-01系列模型首次将线性注意力机制扩展到商用模型的布新级别,受益于此次架构创新,代模该系列模型在处理长输入的时候具有非常高的效率,接近线性复杂度。从规模效应、结构设计、训练优化和推理优化等层面综合考虑,MiniMax选择模型参数量为4560亿,其中每次激活459亿,能够高效处理400万token的上下文,将有效替代Transformer传统架构并开启超长文本输入时代。相较于Gemini等一众全球顶级模型,MiniMax-01随着输入长度变长,性能衰减最慢。
值得注意的是,MiniMax还开源了Text-01模型、VL-01模型的完整权重,以便于更多开发者做有价值、突破性的研究。MiniMax方面表示,“我们认为这有可能启发更多长上下文的研究和应用,从而更快促进Agent时代的到来,二是开源也能促使我们努力做更多创新,更高质量地开展后续的模型研发工作。”
- 最近发表
-
- 四川省市场监管局提醒:劣质太阳镜易伤眼
- 移民美國第一件事要做什麼?我一定回答準備一支好用的手機號碼
- 【關鍵眼中盯】聽說歐美很多研究生不用寫論文就能畢業?至少在英國就不是這樣
- 佛教界白色恐怖冤案(一):蔣介石同窗忙著復興中國佛教會,卻不知大難臨頭
- 雅安中院宣判特大贩卖婴儿案
- PChome前景堪憂?被momo、蝦皮超車陷營運低谷,今再傳執行長蔡凱文請辭,暫由董事長詹宏志兼任
- 中國F1車手周冠宇賽道車禍,「Halo安全系統」成為挽救車手性命的關鍵因素
- 河南村鎮銀行存款「清零」事件:利用第三方網路平台吸金人民幣400億,終釀成全國危機
- 遭家暴16次女子入院治疗,妇联:“会维护其合法权益”
- 劉櫂豪第六度獲提名參選台東縣長對決現任饒慶鈴,1/3原住民選票流動成關鍵
- 随机阅读
-
- 当小动物客串“特邀反诈宣传员”
- 《父母並非不愛你,卻又讓你傷痕累累的「隱性虐待」》:邁向成功的腿長在你自己身上,而不是心理師身上
- 【2022金曲獎】典禮收視率出爐:陳美鳳稱霸電視紅毯與頒獎段落,網路觀眾創新高偏愛表演項目
- 【2022金曲獎】最佳年度專輯蔡健雅《DEPART》:所有的音樂人都是說故事的人
- 许家印被采取强制措施!可能涉嫌多项罪名
- 亞洲盃男籃首戰對巴林贏下關鍵一役:劉錚29分展現大將之風,14日將對上韓國
- 【小說】《迴陰》選摘:她的靈魂成功抵達另一個世界,釋放出前所未有的災難
- 【散文】王盛弘《雪佛》:我安於當琦君阿姨一名小小的仰望者,這是最好的距離
- “公司员工遭高管烟头烫脸”引关注 如何规避职场欺凌?
- 《長篇小說的技藝》:小說的衝突不能無憑無據,作者必須找出「客觀對應物」來體現難以言喻的情感
- 法國LGBT難民創設NGO「大心之家」,盼落地生根從受助者轉變為助人者
- 《長篇小說的技藝》:小說的衝突不能無憑無據,作者必須找出「客觀對應物」來體現難以言喻的情感
- 福建龙岩约谈7家供校集体用餐配送单位
- 「重縫」婆羅洲邊緣:沙巴曾是馬印衝突前線,如今印尼遷都或改變沙加邊境的命運
- 【2022金曲獎】典禮收視率出爐:陳美鳳稱霸電視紅毯與頒獎段落,網路觀眾創新高偏愛表演項目
- 深陷性侵風波的名導伍迪艾倫難得現身社群媒體,坦言近年可能結束導演生涯
- 看到病人好转 他乐在其中
- 實地走訪2022威尼斯雙年展(上):台灣藝術家備受國際肯定,但台灣民眾還需自省美學素養
- 台大、北醫教授夫妻涉侵占幹細胞研究成果,「技術換股票」獲利28億,檢調漏夜偵訊各100萬元交保
- 《憑空而來:伍迪・艾倫回憶錄》(下):對比抵制我的愚蠢演員們,《紐約時報》的反對更讓我驚訝
- 搜索
-
- 友情链接
-