🎉 Gate.io動態 #创作者激励计划# 火熱進行中!報名參與並發帖解鎖 $2,000 創作大獎!
🌟 參與攻略:
1️⃣ 點擊連結進入報名頁面 👉️ https://www.gate.io/questionnaire/6550
2️⃣ 點擊“是”按鈕提交報名
3️⃣ 在動態完成發帖,提升發帖量和互動量,解鎖獲獎資格!
📌 只要是與加密相關內容均可參與發帖!
🎁 茶具套裝、Gate x 國際米蘭保溫杯、Gate.io 紀念章、點卡等好禮等你來拿!獲獎者還將獲得專屬社區流量扶持,助力您提升影響力,增長粉絲!
活動截止至:5月6日00:00 (UTC+8)
活動詳情:https://www.gate.io/announcements/article/44513
GPT現狀終於有人講清楚了! OpenAI大牛最新演講爆火,還得是馬斯克欽點的天才
來源:量子位
繼Windows Copilot發布後,微軟Build大會熱度又被一場演講引爆。
前特斯拉AI總監Andrej Karpathy在演講中認為**思維樹(tree of thoughts)與AlphaGo的蒙特卡洛樹搜索(MCTS)**有異曲同工之妙!
網友高呼:這是關於如何使用大語言模型和GPT-4模型的最詳盡有趣的指南!
隨著演講而爆火的,還有推特網友根據演講整理的一份筆記,足足有31條,目前轉贊量已超過3000+:
如何訓練GPT助手?
Karpathy這次的演講主要分為兩個部分。
第一部分,他講瞭如何訓練一個“GPT助手”。
Karpathy主要講述了AI助手的四個訓練階段:預訓練(pre-training)、監督微調(supervised fine tuning)、獎勵建模(reward modeling)和強化學習(reinforcement learning)。
每一個階段都需要一個數據集。
Karpathy用了更多例子作補充:
在這裡需要明確指出的是,基礎模型不是助手模型。
雖然基礎模型可以回答問題,但它所給出的回答並不可靠,可用於回答問題的是助手模型。在基礎模型上進行訓練的助手模型,通過監督微調,在生成回復和理解文本結構方面的表現將優於基礎模型。
在訓練語言模型時,強化學習是另一個關鍵的過程。
通過用人工標記的高質量的數據進行訓練,可以使用獎勵建模來創建一個損失函數,以改善其性能。然後,通過增加正向的標記,並降低負面標記的概率,來進行強化訓練。
而在具有創造性的任務中,利用人類的判斷力對於改進AI模型至關重要,加入人類的反饋可以更有效地訓練模型。
經過人類反饋的強化學習後,就可以得到一個RLHF模型了。
模型訓練好了,接下來就是如何有效利用這些模型解決問題了。
如何更好地使用模型?
在第二部分,Karpathy主要討論了提示策略、微調、快速發展的工俱生態系統以及未來的擴展等問題。
Karpathy又給出了具體示例來說明:
而**提示()**可以彌補這種認知差異。
Karpathy進一步解釋了思維鏈提示的工作方式。
對於推理問題,要想讓自然語言處理中Transformer的表現更好,需要讓它一步一步地處理信息,而不能直接拋給它一個非常複雜的問題。
諾貝爾經濟學獎得主丹尼爾卡尼曼在《思考快與慢》中提出,人的認知系統包含1和2兩個子系統。 1主要靠直覺,而2是邏輯分析系統。
通俗來說,1是一個快速自動生成的過程,而2是經過深思熟慮的部分。
這在最近一篇挺火的論文“Tree of thought”(思維樹)中也有被提及。
Karpathy認為這種思路與AlphaGo非常相似:
對此,Karpathy還提到了AutoGPT:
窗口上下文的內容就是transformers在運行時的記憶(working memory),如果你可以將與任務相關的信息加入到上下文中,那麼它的表現就會非常好,因為它可以立即訪問這些信息。
簡而言之,就是可以為相關數據建立索引讓模型可以高效訪問。
最後,Karpathy簡單講了一下在大語言模型中的約束提示(Constraint ing)和微調。可以通過約束提示和微調來改進大語言模型。約束提示在大語言模型的輸出中強制執行模板,而微調則調整模型的權重以提高性能。
關於Andrej Karpathy
後來OpenAI聯合創始人之一的馬斯克看上了Karpathy,把人挖到了特斯拉。但也因為這件事,馬斯克和OpenAI徹底鬧翻,最後還被踢出局。在特斯拉,Karpathy是Autopilot、FSD等項目的負責人。
今年二月份,在離開特斯拉7個月後,Karpathy再次加入了OpenAI。
最近他發推特表示,目前對開源大語言模型生態系統的發展饒有興趣,有點像早期寒武紀爆發的跡象。
參考鏈接: [1]