大模型发展亟需高质量“教材”相伴
1月5日,教材美国人工智能公司OpenAI表示,大模正在与数十家出版商洽谈达成文章授权协议,型发需高相伴以获取内容来训练其人工智能模型。展亟质量2023年12月27日,教材《纽约时报》起诉OpenAI和微软公司,大模指控这两家公司未经许可使用其数百万篇文章训练人工智能模型。型发需高相伴而早在2023年3月,展亟质量就有消息显示谷歌Bard模型的教材部分训练数据来源于ChatGPT。 这些事件剑指同一个问题——大模型高质量语料短缺。大模“对于从头开始训练的型发需高相伴模型,语料短缺会在非常大的展亟质量程度上限制大模型发展。”近日,教材哈尔滨工业大学(深圳)计算机科学与技术学院教授邵睿在接受科技日报记者采访时说:“增加语料对于提升大模型能力的大模边际效益正在减弱,高质量语料的型发需高相伴缺乏正日益成为限制大模型发展的瓶颈。” 大模型训练语料短缺问题严重 科技部新一代人工智能发展研究中心2023年发布的《中国人工智能大模型地图研究报告》显示,从全球已发布的大模型数量来看,中国和美国大幅领先,占全球总数的80%以上。 虽然大模型发展如火如荼,但大模型高质量语料短缺已成为全球共性问题。公开资料显示,大模型对数据供给要求极高。比如,训练GPT-4和Gemini Ultra大概需要4万亿至8万亿个单词。麻省理工学院等高校研究人员预测,到2026年之前,机器学习数据集可能会耗尽所有可用的高质量语料数据。研究机构EpochAI亦公开表示,最早在2024年,人类就可能会陷入训练数据荒,届时全世界的高质量训练数据都将面临枯竭。OpenAI也公开表达过对数据告急的担忧。 值得注意的是,当前大模型数据集主要为英文。中文语料面临的短缺问题更加严峻。 中国工程院院士、鹏城实验室主任高文曾公开表示,全球通用的50亿大模型数据训练集里,中文语料占比仅为1.3%。 上海数据交易所市场发展部副总经理章健此前公开表示,当前大模型行业存在语料供应不足的问题,特别是在垂直细分领域,一些共享、免费下载的语料数量虽然大,质量却不高。“我们在追求语料数量增长的同时,也要重视质量。”章健说。 高质量语料应具备七大特征 那么,何为高质量语料?记者采访时,包括腾讯、商汤科技、哈尔滨工业大学(深圳)等企业和高校专业人士均给出一致答案:高质量语料应具备多样性、大规模、合法性、真实性、连贯性、无偏见和无害等七大特征。 邵睿表示,高质量语料应具有多样性高、句式流畅的特点。腾讯机器学习平台算法负责人康战辉认为,语料的多样性是保证语料质量的基础,要通过不同的途径采集新闻、小说、诗歌、科技文章等不同类型的语料。这有助于大模型学习到更丰富的语言表达。 同时,高质量语料要具有较大规模,因为大模型需要大量语料来学习语言规律并提高泛化能力。只有拥有充足的语料,大模型才能更好地捕捉细微的语言特征。 此外,高质量语料应是合法且无害的。不合法或有害的语料可能导致模型产生不恰当的回答或建议,或无意中泄露他人隐私。 “高质量语料还应该具有真实性和连贯性,以便让大模型更好地理解语境并生成符合逻辑的回答。”康战辉说,语料库应该充分反映语料的多样性并避免偏见,这样大模型在不同场景下回答不同用户的问题时才能做到尽可能科学客观。 完善相关机制提高语料质量 记者在采访中了解到,目前训练大模型的语料有一部分是从数据公司购买的,也有一部分是从网络公开语料或者公开数据集中获取并整理的。“从数据公司购买的语料质量较高,并且大多是垂域数据,但其数据量较少且价格较贵。”邵睿说,“网络公开语料通用性较好,数据量大,但数据质量无法保证,数据格式难以统一。” “人类产生的有效信息,包括大量高价值信息可能不一定是互联网数据,而是沉散在各行各业里的数据。”商汤科技发言人说,“怎样更多汇聚数据,设计更多、更好的网络结构,用更多的计算资源去支撑更大容量的高质量语料,产生更强的智能,是一个至关重要的问题。”这位发言人认为,要解决语料问题,不仅要靠增加语料总量,还需要提高语料质量,甚至要考虑完善数据交换机制,推动人工智能数据基础设施化。 正如这位发言人所说,目前业界正在采取一些措施,推动数据交换机制的建设。记者梳理发现,2023年7月,深圳数据交易所联合近50家单位成立开放算料联盟。该联盟将围绕高质量中文训练数据和多模态训练数据,协调数据要素、数据治理、训练数据、数据标注、合成数据等相关标准制定,协助数据交易所增加与大模型相关的新品类和新专区。 同样是2023年7月,在2023世界人工智能大会现场,中国大模型语料数据联盟成立。同年8月,上海人工智能实验室宣布,联合中国大模型语料数据联盟成员单位共同开源发布“书生·万卷”1.0多模态预训练语料。这次开源的数据总量超过2TB,包含超5亿个文本、2200万个图文交错文档、1000个影像视频。 除了建设更为完善的体制机制,数据清洗等技术手段也能在一定程度上解决高质量语料短缺难题。但要看到,这些技术手段有较高门槛。商汤科技发言人透露,该公司在数据清洗的过程中投入了上千块GPU的算力。OpenAI在无数场合介绍过GPT-4训练的经验,但从未公开过数据清洗的经验。
- 最近发表
-
- 你好,两眼炯炯有神的外星生物丨记者手记
- 《竄改基因》:基因編輯治療人類疾病的方式,跟目前所有藥物治療相比,幾乎是完全相反的
- 荷蘭記者直播北京冬奧現場遭警方拖走:國際奧會指「是單一事件」,記者反駁指其他媒體同樣遭警方阻撓
- 台灣第一起運鈔車搶案(中):警方鎖定好玩愛賭、黑白兩道都吃得開的「黑色大亨」
- 《街仔路採集誌》:鞋子造型「萬兩金」植栽&瓶罐「鳳梨頭」植栽
- 台灣口語常說的「+1」,要是直翻成「Plus one」可就尷尬了
- Spotify併購Chartable、Podsights,「垂直整合」提升Podcast廣告行銷效益
- 北京冬奧神秘運動:「冰壺」源自16世紀蘇格蘭,義大利兼職女店員初登場奪隊史首面混雙金牌
- 克羅地亞議會宣布解散
- 不管有無「倒刺鉤」,虎鞭壯陽的迷思實在是瞎扯淡
- 随机阅读
-
- 端午連假第二天!高公局預估「7路段」壅塞
- 避免從「泡芙人」變成「紙片人」,減脂期間維持重訓相當重要
- 顛覆北韓第一夫人神祕低調形象,金正恩與李雪主精心策劃的「放閃統治術」
- 台灣第三方支付「紅綠藍」三足鼎立,綠界科技物流+金流策略成功,預計3/15掛牌上櫃、承銷價760元
- 入粤融湾!贵州铜仁市“土特产”参展食博会获好评
- 民眾黨2022縣市長布局曝光:台北市黃珊珊、桃園市謝立功、台中市蔡炳坤、基隆市邱臣遠
- 荀子跟周星馳都認為「堅持就會成功」,但為什麼「只有堅持」往往會失敗?
- 大學生為何要學越語?「我們都會吃越南的食物,卻很少去真正認識這個國家」
- 从严落实防汛措施 坚守河湖安澜底线
- 【關鍵專訪】補教業者看108課綱:學習歷程檔案怎麼做?廣泛的閱讀是起手式
- 戰國猛將吉川元春娶「醜女」當老婆,是真愛無敵還是為了家族利益?
- 專訪「目目咖啡」謝文娟:在台東巷弄飄香的折蛋捲,是來自馬來西亞的鄉愁
- 我市发布《2021年水资源公报》
- 《峰值體驗》:路過者始於迷惑,如何利用五感與直覺誘使消費者進店?
- 史碧瓦克《在其他世界》:女性主義與批判理論之間,我的思想路徑是什麼?
- 2022大型重機駕照考照全攻略:新制有哪些變更?如何找駕訓班?有哪些關卡?
- 直播带货消费问卷调查报告发布 近六成消费者注重价格因素
- 《讓人才自己來找你》:「雇主品牌」在組織面的10個評量維度,你的公司做到了嗎?
- 「Curry, way downtown. BANG!」那個你一定聽過他聲音的NBA傳奇播音員Mike Breen
- 「開工」的英文跟working無關?各種開工儀式的相關英文一次學起來
- 搜索
-
- 友情链接
-