大模型发展亟需高质量“教材”相伴
1月5日,教材美国人工智能公司OpenAI表示,大模正在与数十家出版商洽谈达成文章授权协议,型发需高相伴以获取内容来训练其人工智能模型。展亟质量2023年12月27日,教材《纽约时报》起诉OpenAI和微软公司,大模指控这两家公司未经许可使用其数百万篇文章训练人工智能模型。型发需高相伴而早在2023年3月,展亟质量就有消息显示谷歌Bard模型的教材部分训练数据来源于ChatGPT。 这些事件剑指同一个问题——大模型高质量语料短缺。大模“对于从头开始训练的型发需高相伴模型,语料短缺会在非常大的展亟质量程度上限制大模型发展。”近日,教材哈尔滨工业大学(深圳)计算机科学与技术学院教授邵睿在接受科技日报记者采访时说:“增加语料对于提升大模型能力的大模边际效益正在减弱,高质量语料的型发需高相伴缺乏正日益成为限制大模型发展的瓶颈。” 大模型训练语料短缺问题严重 科技部新一代人工智能发展研究中心2023年发布的《中国人工智能大模型地图研究报告》显示,从全球已发布的大模型数量来看,中国和美国大幅领先,占全球总数的80%以上。 虽然大模型发展如火如荼,但大模型高质量语料短缺已成为全球共性问题。公开资料显示,大模型对数据供给要求极高。比如,训练GPT-4和Gemini Ultra大概需要4万亿至8万亿个单词。麻省理工学院等高校研究人员预测,到2026年之前,机器学习数据集可能会耗尽所有可用的高质量语料数据。研究机构EpochAI亦公开表示,最早在2024年,人类就可能会陷入训练数据荒,届时全世界的高质量训练数据都将面临枯竭。OpenAI也公开表达过对数据告急的担忧。 值得注意的是,当前大模型数据集主要为英文。中文语料面临的短缺问题更加严峻。 中国工程院院士、鹏城实验室主任高文曾公开表示,全球通用的50亿大模型数据训练集里,中文语料占比仅为1.3%。 上海数据交易所市场发展部副总经理章健此前公开表示,当前大模型行业存在语料供应不足的问题,特别是在垂直细分领域,一些共享、免费下载的语料数量虽然大,质量却不高。“我们在追求语料数量增长的同时,也要重视质量。”章健说。 高质量语料应具备七大特征 那么,何为高质量语料?记者采访时,包括腾讯、商汤科技、哈尔滨工业大学(深圳)等企业和高校专业人士均给出一致答案:高质量语料应具备多样性、大规模、合法性、真实性、连贯性、无偏见和无害等七大特征。 邵睿表示,高质量语料应具有多样性高、句式流畅的特点。腾讯机器学习平台算法负责人康战辉认为,语料的多样性是保证语料质量的基础,要通过不同的途径采集新闻、小说、诗歌、科技文章等不同类型的语料。这有助于大模型学习到更丰富的语言表达。 同时,高质量语料要具有较大规模,因为大模型需要大量语料来学习语言规律并提高泛化能力。只有拥有充足的语料,大模型才能更好地捕捉细微的语言特征。 此外,高质量语料应是合法且无害的。不合法或有害的语料可能导致模型产生不恰当的回答或建议,或无意中泄露他人隐私。 “高质量语料还应该具有真实性和连贯性,以便让大模型更好地理解语境并生成符合逻辑的回答。”康战辉说,语料库应该充分反映语料的多样性并避免偏见,这样大模型在不同场景下回答不同用户的问题时才能做到尽可能科学客观。 完善相关机制提高语料质量 记者在采访中了解到,目前训练大模型的语料有一部分是从数据公司购买的,也有一部分是从网络公开语料或者公开数据集中获取并整理的。“从数据公司购买的语料质量较高,并且大多是垂域数据,但其数据量较少且价格较贵。”邵睿说,“网络公开语料通用性较好,数据量大,但数据质量无法保证,数据格式难以统一。” “人类产生的有效信息,包括大量高价值信息可能不一定是互联网数据,而是沉散在各行各业里的数据。”商汤科技发言人说,“怎样更多汇聚数据,设计更多、更好的网络结构,用更多的计算资源去支撑更大容量的高质量语料,产生更强的智能,是一个至关重要的问题。”这位发言人认为,要解决语料问题,不仅要靠增加语料总量,还需要提高语料质量,甚至要考虑完善数据交换机制,推动人工智能数据基础设施化。 正如这位发言人所说,目前业界正在采取一些措施,推动数据交换机制的建设。记者梳理发现,2023年7月,深圳数据交易所联合近50家单位成立开放算料联盟。该联盟将围绕高质量中文训练数据和多模态训练数据,协调数据要素、数据治理、训练数据、数据标注、合成数据等相关标准制定,协助数据交易所增加与大模型相关的新品类和新专区。 同样是2023年7月,在2023世界人工智能大会现场,中国大模型语料数据联盟成立。同年8月,上海人工智能实验室宣布,联合中国大模型语料数据联盟成员单位共同开源发布“书生·万卷”1.0多模态预训练语料。这次开源的数据总量超过2TB,包含超5亿个文本、2200万个图文交错文档、1000个影像视频。 除了建设更为完善的体制机制,数据清洗等技术手段也能在一定程度上解决高质量语料短缺难题。但要看到,这些技术手段有较高门槛。商汤科技发言人透露,该公司在数据清洗的过程中投入了上千块GPU的算力。OpenAI在无数场合介绍过GPT-4训练的经验,但从未公开过数据清洗的经验。
-
上一篇
-
下一篇
- 最近发表
- 随机阅读
-
- 亚冬会|14日看点:期待闭幕惊喜
- 受挫的中國女權運動如何催生新一代的革命者?「白紙運動」又開啟何種可能性?
- 香港人眼中的台北:藝文場域與在地緊密連結,咖啡廳文化令人流連忘返
- 越南簽證不便利又貴引起國際旅客反彈,台灣旅遊入境人次僅是疫情前三分之一
- 天长法院依法执行促被执行人履行义务_
- 西班牙76%身障腦麻運動員6小時內完成全馬,寫下世界體育歷史新頁
- 《平衡心態》:身邊住的若都是薪水較高的人,可能會影響我們的健康
- 《Her》:當我們和AI談論愛情時,在談論什麼?
- 甲醇中多效唑溶液标准物质:确保农药分析结果的准确性和可靠性
- 《小資理財90秒【圖卡小劇場】》:財務自由的「25倍法則」,來自「4%安全提領率」研究
- 奧斯卡影后楊紫瓊:這是夢想成真的證明,女士們,千萬別讓任何人告訴妳已過了巔峰
- 陳進郎《股市大贏家》:功力平平的人總忙著思索新策略,最大的偏見就是「技術分析無用論」
- 末位淘汰、严格考勤、降薪调岗 伪装手段变相裁员合法吗
- 《【牛津通識課09】創造力》:創造力的典範轉移——從「他」到「我」,最後到「我們」
- 台積電擴大領先三星,旗下創意電子營收已超越韓國矽智財龍頭業者
- 美國演員藍斯.瑞迪克逝世享壽60歲,《捍衛任務》飯店經理角色成絕響
- 中国绿色诺亚方舟有机产业 梦想起航
- 《都市裡的動物行為學》:點心被烏鴉偷走的時候,就應該想成「啊啊,這是神要我減肥呢」
- 認識「下泌尿道症候群」:每個男人幾乎都會攝護腺肥大,如何自我評估?
- 北科大與微軟合辦ChatGPT工作坊迴響熱烈,鼓勵學生以正向且負責的態度善用AI科技輔助學習
- 搜索
-
- 友情链接
-