
資料內(nèi)容:要
訓練數(shù)據(jù)對大模型發(fā)展的重要性
業(yè)界認為,算法、算力與數(shù)據(jù),是支撐大模型發(fā)展的三大基石。更高質(zhì)量、更豐富的數(shù)據(jù)是以 GPT 為例的生
成式人工智能大模型成功的驅(qū)動力。GPT 模型架構從第 1 代到第 4 代均較為相似,而用來訓練數(shù)據(jù)的數(shù)據(jù)規(guī)模和質(zhì)
量卻有很大的不同。GPT-1 是由 4.8G 未過濾原始數(shù)據(jù)訓練,GPT-2 是由經(jīng)人類過濾后的 40G 數(shù)據(jù)訓練,GPT-3
是由從 45T 原始數(shù)據(jù)中過濾的 570G 數(shù)據(jù)訓練,而 chatGPT/GPT-4 則是在該基礎上又加入了高質(zhì)量人類標注。以
吳恩達(Andrew Ng)為代表的學者觀點認為,人工智能是以數(shù)據(jù)為中心的,而不是以模型為中心。“有標注的高
質(zhì)量數(shù)據(jù)才能釋放人工智能的價值,如果業(yè)界將更多精力放在數(shù)據(jù)質(zhì)量上,人工智能的發(fā)展會更快”。
模型訓練所需的數(shù)據(jù)類型
數(shù)據(jù)作為大模型訓練的基礎,它提供了大模型所必需的知識和信息。區(qū)別于以往搜索系統(tǒng)、個性化推薦等所需
的大量用戶行為和偏好數(shù)據(jù),隨著技術的演進,大模型所需的數(shù)據(jù)是對知識性內(nèi)容有強需求,是一種新的類型。
模型訓練所需的數(shù)據(jù)類型
2.1 訓練大語言模型的數(shù)據(jù)
大模型所需要的數(shù)據(jù)根據(jù)訓練的階段有所不同。以 ChatGPT 為代表的大語言模型(LLM)為例,其訓練過程
分為預訓練(Pre-training)、監(jiān)督微調(diào)(SFT)、基于人類反饋的強化學習(RLHF)三個階段,后兩部分又統(tǒng)稱為