Chat GPT是如何訓練的?

如何訓練 GPT 聊天機器人 768x435-718x.jpg

如果您熟悉ChatGPT,您可能已經聽說過它是訓練在大量數據上。但這到底是什麼意思?在本文中,我們將深入探討ChatGPT是如何訓練的細節。

ChatGPT是一款预先训练好的语言模型,经过监督学习和强化学习等多种技术的调整。ChatGPT的训练过程包括将大量文本数据输入模型,并调整其参数,使其能够生成类似于训练语料中的文本。

這個過程採用了無監督的學習方法,這意味著模型沒有明確的反饋來判斷其生成的文本是正確還是錯誤。相反,模型根據生成文本與訓練語料庫中的文本相似的可能性來調整其參數。

GPT-3是 ChatGPT-3 的母模型,是有史以來最大的語言模型之一,具有1750億的參數和2048個令牌的上下文長度。它是在Common Crawl、WebText2、Books1/2、Wikipedia in English以及CSS、JSX、Python和其他編程語言的代碼示例中訓練的數百億個詞語。

GPT-3 使用的訓練方法為生成式預訓練,意味著它被訓練來預測輸入句子中的下一個標記或單詞。

最佳 Chat GPT 替代方案

監督式學習

 ChatGPT模型是透過人工訓練師的監督式學習過程進行微調的。這些訓練師扮演使用者和AI助手的雙重角色,進行對話。



他們根據模型提出的建議來指導他們撰寫回應,然後將其與已轉換為對話格式的InstructGPT數據集混合。

強化學習

模型經過接近策略優化(PPO)的強化學習進一步改善。人類培訓師評估了上一次對話中模型生成的回應,並使用這些評估來開發獎勵模型。然後,模型根據這些獎勵模型進行微調。

為達到更好的效果,微調的過程進行了數次。相較於其他演算法,PPO演算法具有更好的性能和更高的速度,使其非常適合進行此過程。

OpenAI繼續從與ChatGPT互動的使用者收集資訊,以進一步增強和精煉模型。

使用者可以選擇通過點贊或踩貶來投票ChatGPT的回答,他們還可以提供額外的意見反饋。這些資料被用於進一步提高模型的性能,使之更好地產生類似人類的文字。

用於訓練模型的數據

ChatGPT-3 是一種語言模型,是從 GPT-3.5 系列上進行了微調,它使用了 Azure AI 超級計算基礎架構進行訓練。它被訓練在從網路中爬下來的大量文本資料上,其中包括書籍、聊天論壇、文章、網站、學術論文、代碼和其他來源。

ChatGPT-3 訓練所使用的文本數據庫超過 45 TB,這是非常巨大的,並有助於模型能夠生成類似於記者或作者可能產生的文字。

相關文章

查看更多 >>