Python知識分享網 - 專業(yè)的Python學習網站 學Python，上Python222

大模型（LLMs）強化學習——RLHF及其變種面 PDF 下載

匿名網友發(fā)布于：2025-04-21 09:49:36

(侵權舉報)

(假如點擊沒反應，多刷新兩次就OK！)

大模型（LLMs）強化學習——RLHF及其變種面 PDF 下載圖1

資料內容：

一、介紹一下 LLM的經典預訓練Pipeline？

目前基于Transformer decoder的LLM，比如ChatGPT、LLaMA、baichuan等，通常都會有基于預訓練的base模

型和在base模型至少使用RLHF微調的Chat模型，Chat模型的訓練一般都包括如下三個步驟：預訓練，有監(jiān)督微

調和對齊。

1. 在預訓練階段，模型會從大量無標注文本數(shù)據集中學習通用知識；

2. 使用「有監(jiān)督微調」（SFT）優(yōu)化模型以更好地遵守特定指令；

3. 使用對齊技術使LLM可以更有用且更安全地響應用戶提示。

二、預訓練（Pre-training）篇

2.1 具體介紹一下預訓練（Pre-training）？

預訓練（Pre-training）：利用數(shù)十億到數(shù)萬億個token的龐大文本語料庫對模型繼續(xù) 預訓練，使模型能夠根據

提供的文本來預測「下一個單詞」。

三、有監(jiān)督微調（Supervised Tinetuning）篇

3.1 具體介紹一下有監(jiān)督微調（Supervised Tinetuning）？

有監(jiān)督微調（Supervised Tinetuning）:雖然 SFT 訓練目標和預訓練（Pre-training）類似，也是需要模型預測

「下一個單詞」，但是需要人工標注的指令數(shù)據集，其中模型的輸入是一個指令（根據任務的不同，也可能包含

一段輸入文本），輸出為模型的預期回復內容

熱門標簽推薦

小鋒老師，前世界500強央企軟件工程師，12年Java+Pyton老司機，技術專家，高級講師，每天堅持鍛煉身體，堅持早睡早起，崇尚自由，平時喜歡帶帶Java學員 (已經成功指導2000+學員高薪就業(yè))，喜歡搞搞產品，附帶搞搞技術自媒體，喜歡研究主流技術，熱愛技術和教育。小鋒網絡科技光杠司令員。

友情鏈接： Java知識分享網| Java1234課堂

免責聲明：本站是非盈利教學演示站點，網站所有資源均轉載自第三方站點或者是網友提供，僅供讀者預覽及學習交流使用，下載后請24小時內刪除，如果喜歡請購買正版資源!原作者如果認為本站侵犯了您的版權,請發(fā)送郵件到 caofeng2012@126.com 告知管理員,我們24小時內會處理!

python222官方公眾號

小鋒老師企業(yè)微信

感谢您访问我们的网站，您可能还对以下资源感兴趣：

高清在线亚洲精品国产二区

日韩一区二区三区在线网站亚洲AV无码成H人动漫无遮挡不卡久久久精品94久久精日本不卡中文字幕免费

熱門帖子推薦

相關帖子推薦

熱門標簽推薦