研究:人工智能在認知障礙測試中表現不佳
《英國醫學雜誌》最新發表的研究一項研究顯示,在廣泛用於檢測阿爾茨海默病早期症狀的人工認知測試中,大部分參與測試的智能障礙中表人工智能大語言模型都表現出相當於人類輕度認知障礙的跡象。儘管這只是測試一項基於觀察的研究,但新發現挑戰了人工智能將很快取代人類醫生的研究假設。 過去幾年,人工認知人工智能尤其是智能障礙中表大語言模型生成能力取得了巨大進步。在醫學領域,測試這些發展引發了猜測:這些大語言模型能在醫療任務上超越人類醫生嗎?儘管先前的研究多項研究表明,大語言模型在一系列醫學診斷任務上表現非常出色,人工認知但它們的智能障礙中表認知能力變化還需要進一步驗證。 為填補這一知識空白,測試以色列哈達薩醫療中心等機構的研究研究人員使用「蒙特利爾認知評估量表」測試了多個領先和公開的大語言模型的認知能力。這些大語言模型包括由美國開放人工智能研究中心(OpenAI)開發的人工認知GPT-4和GPT-4o、由美國Anthropic公司開發的智能障礙中表「克勞德3.5」以及由美國谷歌公司開發的「雙子座1.0」和「雙子座1.5」。 「蒙特利爾認知評估量表」廣泛用於檢測認知障礙和阿爾茨海默病的早期跡象,通常用於老年人。通過一系列簡短的任務和問題,該測試可以評估注意力、記憶力、語言、視覺空間技能和執行功能等能力。得分最高為30分,通常得分26分及以上被視為認知正常。 測試結果顯示,GPT-4o得分最高——26分,「雙子座1.0」得分最低——16分。所有大語言模型都能很好地完成命名、注意力、語言和抽象等方面的任務,但在視覺空間技能和執行功能測試中都表現不佳。在進一步的視覺空間測試中,大部分大語言模型無法準確解釋複雜的視覺場景。 研究人員表示,在需要視覺抽象和執行功能的任務中,大語言模型幾乎「全軍覆沒」,這表明人工智能在臨床環境中的使用可能會有困難。因此他們開玩笑說,神經科醫生不僅不太可能很快被大語言模型取代,而且他們可能會發現自己將迎來新的「虛擬患者」——表現出輕度認知障礙的人工智能模型。 (來源:新華社)
- 最近发表
- 随机阅读
-
- 新丰:打造“党建+”品牌,引领农业农村高质量发展新篇章
- 圆通速递:4月快递产品收入同比增长11%
- 特斯拉拟正式向普通用户交付4680电池版ModelY
- 机构:中国手机销量连续10周下滑荣耀外主要品牌的销售额同比均有下降
- 强监管信号明确 监管部门从严从快查处违规减持
- 營養師教「有效控糖吃法」 便當加「1物」也有助延緩血糖上升
- 裕兴股份:拟4.87亿元投建年产6万吨高端功能性聚酯薄膜生产线项目
- 国铁集团:前4月全国铁路固定资产投资完成1574.6亿元同比增长0.6%
- 陕西首例知识产权纠纷案件完成“行政调解 司法确认”
- Burberry2022财年收入增长23%其中四季度中国市场下降13%
- 龙建股份:联合体中标鱼台县农村公路窄改宽项目EPC工程
- 西门子能源传将收购全球第二大风力发电机制造商西门子歌美飒
- 【新品推荐】CHO细胞DNA含量测定质控品重磅来袭,欢迎抢购!
- 商务部:全力保障受疫情影响地区生活必需品市场供应
- 午间公告:科陆电子实控人筹划公司控制权变更事项
- 南京银行:法国巴黎银行及法国巴黎银行(QFII)合计持股从14.04%增至16.37%
- 安徽芜湖:开展春节食品安全治理
- 经济日报:保供并不意味放弃降碳承诺
- 恒玄科技:拟以4800万元
- 大商所、郑商所夜盘收盘普跌铁矿石跌超3%
- 搜索
-
- 友情链接
-