資料內容:
1.1 大語言模型相關概念術語
1.1.1 語言模型
P(w1,w2,…,wn |θ) S = w1,w2,…,
wn n θ
S
P(w1,w2,…,wn |θ) = P(w1|θ)P(w2|w1, θ)…P(wn|w1,
w2,…,wn−1 , θ)
{wk ,wk+1,…,wn } {w0 ,w1,…,wk−1 }
wk
深度學習領域中的術語“語言模型”不等同于通
常意義上的“處理自然語言的模型”,而是對應一種
概率模型,通常用于預測文本序列的下一個單詞. 語
言模型可以評估 ,其中
為 個單詞組成的文本,即可由參數 推測某個句
子 出現的概率,實現語言建模. 目前流行的 LLM 通
常以自回歸語言建模為訓練任務,對整個句子的出
現的概率可以分解為從左到右每個單詞出現的概率
的 乘,
, 訓練的過程中 , 掩蓋住訓練語句中
,讓模型以文本序列 預
測 的分布.
1.1.2 語言預訓練模型與預訓練語言模型
為了將文本中將單詞映射到高維空間中的向量
表示,以便神經網絡模型處理,Mikolov 等人[4] 提出
了 word2vec,系統(tǒng)的介紹了詞嵌入(word embedding)方
法,之后 Pennington 等人[5] 提出 GloVe,同樣致力于通
過淺層神經網絡在通用文本上獲取通用的單詞表征.
這些預訓練模型并不具備預測文本的語言建模能力,
也不屬最終任務模型的一部分,有時稱為語訓練模型.
不同的是,預訓練語言模型不僅能預測文本中詞匯
概率,還能生成單詞關于上下文的向量表征,參數量
也要高幾個數量級,作為下游任務一部分參與微調.
1.1.3 大語言模型
相較于傳統(tǒng)在較小標注數據集上進行監(jiān)督訓練
的 DNN 模型,GPT 和 BERT 等在無監(jiān)督文本上作自
監(jiān)督訓練的預訓練語言模型參數量達到了 1 億級別,
高了若干數量級,因此這些模型也被稱為大模型或
大語言模型(LLM). 隨著 LLM 的發(fā)展,其模型參數
規(guī)模持續(xù)增長,如 GPT-4 等目前已達萬億參數級別.
雖然 BERT 等早期大模型與之相差甚遠,但仍應被稱
作大語言模型[6] . 為了有所區(qū)別,也有人將百億參數
級別之上的大模型稱為大規(guī)模語言模型(large-scale
language model). 本文中的 PLM 和 LLM 這 2 個術語
可以互換.
1.1.4 基礎模型
“基礎模型”由斯坦福大學的 HAI 中心與 2021
年最早提出,指代具有大規(guī)模參數的機器學習模型,
不針對某一特定任務設計,通常在某些模態(tài)下的大
量無標注數據(如文本)上作自監(jiān)督訓練以習得其分
布特征. 可以作為骨干模型(backbone model),助力各
種下游任務的解決,一般 PLM 都可稱為基礎模型,
還有不少支持圖像視頻等多模態(tài)的基礎模型存在.