
資料內(nèi)容:
求知之路:LLM學(xué)到了什么知識(shí)
[LM從海量自由文本中學(xué)習(xí)了大量知識(shí),如果把這些知識(shí)做粗路分類的話,可以分為語言類知識(shí)和
世界知識(shí)兩大類。
語言類知識(shí)指的是詞法、詞性、句法、語義等有助于人類或機(jī)器理解自然語言的知識(shí)。關(guān)于LLM能
否捕獲語言知識(shí)有較長(zhǎng)研究歷史,自從Bert出現(xiàn)以來就不斷有相關(guān)研究,很早就有結(jié)論,各種實(shí)驗(yàn)
充分證明LLM可以學(xué)習(xí)各種層次類型的語言學(xué)知識(shí),這也是為何使用預(yù)訓(xùn)練模型后,各種語言理解
類自然語言任務(wù)獲得大幅效果提升的最重要原因之一。另外,各種研究也證明了淺層語言知識(shí)比如
詞法、詞性、句法等知識(shí)存儲(chǔ)在Transformer的低層和中層,而抽象的語言知識(shí)比如語義類知識(shí),
廣泛分布在Transformer的中層和高層結(jié)構(gòu)中。
世界知識(shí)指的是在這個(gè)世界上發(fā)生的一些真實(shí)事件(事實(shí)型知識(shí),F(xiàn)adualKnowledge),以及一
些常識(shí)性知識(shí)(Common Sense Knowledge)。比如“拜登是現(xiàn)任美國(guó)總統(tǒng)”、“拜登是美國(guó)
人“、“烏克蘭總統(tǒng)澤連斯基與美國(guó)總統(tǒng)拜登舉行會(huì)晤”,這些都是和拜登相關(guān)的事實(shí)類知識(shí);而
“人有兩只眼睛”、“太陽從東方升起”這些屬于常識(shí)性知識(shí)關(guān)于LLM模型能否學(xué)習(xí)世界知識(shí)的
研究也有很多,結(jié)侖也比較一致:LLM確實(shí)從訓(xùn)練數(shù)據(jù)中吸收了大量世界知識(shí),而這類知識(shí)主要分
布在Transformer的中層和高層,尤其聚集在中層而且,隨著Transformer模型層深增加,能夠
學(xué)習(xí)到的知識(shí)數(shù)量逐漸以指數(shù)級(jí)增加(可參考:BERTnesia: Investigating the capture and
forgetting of knowledge in BERT)。其實(shí),你把LLM看作是一種以模型參數(shù)體現(xiàn)的隱式知識(shí)圖
譜,如果這么理解,我認(rèn)為是一點(diǎn)問題也沒有的。
"When Do You Need Bilons of Words of Pre-training Data?”這篇文章研究了預(yù)il練模型學(xué)
習(xí)到的知識(shí)量與訓(xùn)陳數(shù)據(jù)量的關(guān)系,它的結(jié)論是:對(duì)于Bert類型的語言模型來說,只用1000萬到1
億單詞的語料,就能學(xué)好句法語義等語言學(xué)知識(shí),但是要學(xué)習(xí)事實(shí)類知識(shí),則要更多的訓(xùn)練數(shù)據(jù)。
這個(gè)結(jié)論其實(shí)也是在意料中的,畢竟語言學(xué)知識(shí)相對(duì)有限且靜態(tài),而事實(shí)類知識(shí)則數(shù)量巨大,且處
于不斷變化過程中而目前研究證明了陳著增加訓(xùn)練數(shù)據(jù)量,預(yù)訓(xùn)練模型在各種下游任務(wù)中效果越
好,這說明了從增量的訓(xùn)練數(shù)據(jù)中學(xué)到的更主要是世界知識(shí)。
記憶之地:LLM如何存取知識(shí)
由上可知,LLM確實(shí)從數(shù)據(jù)中學(xué)到了很多語言類及世界知識(shí)。那么,對(duì)于某條具體的知識(shí),LLM把
它存儲(chǔ)到了哪里?又是如何提取出來的?這也是一個(gè)有意思的問題。
顯然,知識(shí)一定存儲(chǔ)在Transfomer的模型參數(shù)里從Transfomer的結(jié)構(gòu)看,模型參數(shù)由兩部分
構(gòu)成:多頭注意力(MHA)部分占了大約參數(shù)總體的三分之一,三分之二的參數(shù)集中在FFN結(jié)構(gòu)
中,MHA主要用于計(jì)算單詞或知識(shí)間的相關(guān)強(qiáng)度,并對(duì)全局信息進(jìn)行集成,更可能是在建立知識(shí)
之間的聯(lián)系,大概率不會(huì)存儲(chǔ)具體知識(shí)點(diǎn),那么很容易推論出LLM模型的知識(shí)主體是存儲(chǔ)在
Transfomer的FFN結(jié)構(gòu)里。