Python知識分享網 - 專業(yè)的Python學習網站 學Python,上Python222
大模型(LLMs)強化學習——RLHF及其變種面 PDF 下載
匿名網友發(fā)布于:2025-04-21 09:49:36
(侵權舉報)
(假如點擊沒反應,多刷新兩次就OK!)

大模型(LLMs)強化學習——RLHF及其變種面  PDF 下載 圖1

 

 

資料內容:

 

一、介紹一下 LLM的經典預訓練Pipeline?

 

目前基于Transformer decoderLLM,比如ChatGPTLLaMA、baichuan等,通常都會有基于預訓練的base
型和在base模型至少使用RLHF微調的Chat模型,Chat模型的訓練一般都包括如下三個步驟:預訓練,有監(jiān)督微
調和對齊。
1. 在預訓練階段,模型會從大量無標注文本數(shù)據集中學習通用知識;
2. 使用「有監(jiān)督微調」(SFT)優(yōu)化模型以更好地遵守特定指令;
3. 使用對齊技術使LLM可以更有用且更安全地響應用戶提示。
 
二、預訓練(Pre-training)篇
2.1 具體介紹一下 預訓練(Pre-training)?
預訓練(Pre-training):利用數(shù)十億到數(shù)萬億個token的龐大文本語料庫 對模型繼續(xù) 預訓練,使 模型 能夠 根據
提供的文本來預測「下一個單詞」。
 
三、有監(jiān)督微調(Supervised Tinetuning)篇
3.1 具體介紹一下 有監(jiān)督微調(Supervised Tinetuning)?
有監(jiān)督微調(Supervised Tinetuning:雖然 SFT 訓練目標和 預訓練(Pre-training)類似,也是 需要模型 預測
「下一個單詞」,但是需要人工標注的指令數(shù)據集,其中模型的輸入是一個指令(根據任務的不同,也可能包含
一段輸入文本),輸出為模型的預期回復內容