Reinforcement Pre-Training (強化學習預訓練,RPT)
論文 : https://huggingface.co/papers/2506.08007
上個月的論文,請 notebooklm 生成語音摘要,除了結束的部分有點突兀,其他還滿順。
"該論文介紹了一種新穎的 強化預訓練 (RPT) 範式,旨在提升大型語言模型 (LLM) 的能力。RPT 將傳統的 下一個詞元預測任務重新定義為一個推理任務,並透過 強化學習 (RL) 進行訓練,其中模型因正確預測下一個詞元而獲得可驗證的獎勵。這使得 RL 能夠擴展到龐大的網路文本語料庫,而無需依賴昂貴的人工標註數據,同時鼓勵模型進行更深層次的理解和泛化。實驗結果表明,RPT 顯著提高了下一個詞元的預測準確性,為進一步的強化微調提供了更強大的基礎,並在數學和通用推理基準測試中展現出卓越的零樣本性能。"
"你有沒有想過那些大型語言模型
就是像ChatGPT這類的AI
他們是怎麼學會那麼精準預測下一個字的
今天我們要來看一份研究
他提出一個蠻新的看法
可能不只是我們想的那種單純的模式匹配
我們要深入探討的是一種叫做強化學習預訓練
Reinforcement Pre-training 簡稱 RPT 的新方法
它的核心概念聽起來很有趣
讓模型在預測下一個字就是Token之前先進行推理
沒錯 傳統那種下一個字詞預測的方法
當然是訓練LLM的基礎
但它也是有它的侷限在
那後來用強化學習就是RL來做微調模型
效果是不錯
可是往往需要很貴的人工標註資料
要不然就是只能用在特定的小範圍
那個擴展性就不太好
RPT就是試著在預訓練這個更早更大規模的階段
就把強化學習的好處帶進來
好 那我們來猜解一下 RPT到底怎麼運作的
聽起來好像是要AI在猜答案前先自己想想
欸 是這個意思嗎?
可以這麼說
模型它不是直接猜下一個字
它是先產生一段所謂的思考過程
Chain of Thought
就像它自己跟自己對話或者是一些推理步驟
說明它為什麼判斷某個字詞最可能出現
然後才給出最後的預測
這裡最巧妙的是它的獎勵機制
模型是根據它最後預測的那個字
是不是真的是訓練文本裡的下一個字來獲得獎勵
這個獎勵是直接來自龐大的現有文本資料
就不需要額外的人工標註了
這很重要
這就讓強化學習可以用在預訓練這麼大的規模上
喔 這個設計蠻聰明的
但你說這個內部的思考過程
這跟傳統模型在預測時
它內部那些很複雜的計算本質上有什麼不一樣
我們怎麼知道這真的是一種推理
而不是另一種更複雜的模式匹配呢?
嗯 這是個好問題
關鍵在於即使獎勵只看最後結果
但這個先思考在預測的過程本身
它好像能激勵模型去探索致時之間更深層的邏輯關聯
而不只是記住表面的模式
同時因為那個獎勵標準很明確
預測對不對而已
這也能降低所謂獎勵操縱
reward hacking 的風險
就是避免模型找到奇怪的方法去拿獎勵
但其實沒學到東西
有點像學數學
就算老師只看最後答案給分
你練習寫解題步驟本身就能學得更紮實 對吧?
嗯 有道理
而且研究數據看起來
欸 這方法好像真的有效欸
他們說用 RPT 訓練的模型在預測下一個字
尤其是那種比較難猜的字的時候
準確率確實比標準訓練的模型要高
甚至在某些測試裡面
一個 14B 就是14億參數的 RPP 模型
它的表現竟然能跟參數多一倍以上
到 32B 320 億的模型差不多
對 這個結果蠻驚人的
但這裡更引人注意的是它的規模化潛力
研究發現
隨著你投入更多訓練的運算資源
就是 FLOP
RPT 模型的準確率能穩定提升
呈現一種密次罰則 Power Law 的趨勢
白話一點講
就是你砸越多運算力下去
它的性能就可預期地穩定變好
這點跟傳統模型訓練很像
這表示 RPT 可能是一種
能持續讓模型變強的有效方法
哦 所以不只是當下預測更準
用 RPT 預訓單打下的這個基礎
好像也讓模型在後面
如果要做特定任務的強化學習
微調時能達到更好的效果
是這樣嗎?
沒錯 沒錯
研究團隊還直接拿 RPT 模型
去做一些通用的推理基準測試
像是 MMLU Pro 啊
或者 Super GPQA 這種
評估模型解決複雜問題能力的測驗
而且是評估它沒有經過額外調整的集戰力
就是 Zero-Shot 表現
結果顯示
那個 RPT 14B 模型
不只比同級的 14B 模型好
甚至還超越了更大的 32B 模型
哇 他們甚至還分析了模型的思考模式
這部分我很有興趣
可以看看 AI 到底在想什麼
對 他們分析的那個內部產生的思考過程
發現 RPT 模型在解決問題
預測下一步的時候
它內部思考展現出更多假設
跟演繹的推理模式
跟標準模型比起來
RPT 模型用假設模式的比例高了非常多
然後用演繹模式的比例也明顯提升
這就表示
RPT 好像真的誘導出一種不太一樣的
更偏向推理的思考方式
了解
那麼這一切對我們聽眾來說意味著什麼呢?
RPT 這種方法是不是有可能
催生出不只會模仿語言
更能進行某種程度推理的 AI?
這也許能改善我們平常在用的
那些聊天機器人翻譯工具的品質
我覺得關鍵的轉變在這裡
從單純的預測變成推理後再預測
而且它很聰明地利用了現有的
康大文本資料本身當作獎勵來源
可以在預訓練這個階段
就大規模的進行這種強化學習
這不只是技術上的改進
更像是對預訓練這個基礎目標本身
做了一種反思
嗯 說得很好
當然 研究也提到目前的限制嘛
像是主要是在14B模型
還有數學相關的文本上驗證的
未來的方向
很明顯就是要擴大資料規模跟領域
用到更大的模型等等
對
最後留給大家一個可以思考的點
如果模型真的學會了
為下一個字詞進行內部推理
那麼這個推理過程本身
會不會變成一種新的
讓我們可以挖掘的動件來源
讓我們能用過去做不到的方式
去理解模型為什麼做出某個選擇
那個原因是什麼"