《電子技術應用》
您所在的位置:首頁 > 人工智能 > 業界動態 > 入門:ChatGPT的技術體系

入門:ChatGPT的技術體系

2023-02-26
來源:GiantPandaCV
關鍵詞: ChatGPT 智能體 模型

  ChatGPT的技術體系

  0.參考資料

  RLHF論文:Training language models to follow instructions with human feedback(https://arxiv.org/pdf/2203.02155.pdf)

  摘要上下文中的 RLHF:Learning to summarize from Human Feedback (https://arxiv.org/pdf/2009.01325.pdf)

  PPO論文:Proximal Policy Optimization Algorithms(https://arxiv.org/pdf/1707.06347.pdf)

  Deep reinforcement learning from human preferences (https://arxiv.org/abs/1706.03741)

  1. 引言

  1.1 ChatGPT的介紹

  作為一個 AI Chatbot,ChatGPT 是當前比較強大的自然語言處理模型之一,它基于 Google 的 T5 模型進行了改進,同時加入了許多自然語言處理的技術,使得它可以與人類進行自然的、連貫的對話。ChatGPT 使用了 GPT(Generative Pre-training Transformer)架構,它是一種基于 Transformer 的預訓練語言模型。GPT 的主要思想是將大量的語料庫輸入到模型中進行訓練,使得模型能夠理解和學習語言的語法、語義等信息,從而生成自然、連貫的文本。與其他 Chatbot 相比,ChatGPT 的優勢在于它可以進行上下文感知型的對話,即它可以記住上下文信息,而不是簡單地匹配預先定義的規則或模式。此外,ChatGPT 還可以對文本進行生成和理解,支持多種對話場景和話題,包括閑聊、知識問答、天氣查詢、新聞閱讀等等。

  盡管 ChatGPT 在自然語言處理領域已經取得了很好的表現,但它仍然存在一些局限性,例如對于一些復雜的、領域特定的問題,它可能無法給出正確的答案,需要通過人類干預來解決。因此,在使用 ChatGPT 進行對話時,我們仍需要謹慎對待,盡可能提供明確、簡潔、準確的問題,以獲得更好的對話體驗。

  1.2 ChatGPT的訓練模式

  ChatGPT 的訓練模式是基于大規模文本數據集的監督學習和自我監督學習,這些數據集包括了各種類型的文本,例如新聞文章、博客、社交媒體、百科全書、小說等等。ChatGPT 通過這些數據集進行預訓練,然后在特定任務的數據集上進行微調。

  對于 Reinforcement Learning from Human Feedback 的訓練方式,ChatGPT 通過與人類進行對話來進行模型訓練。具體而言,它通過與人類進行對話,從而了解人類對話的語法、語義和上下文等方面的信息,并從中學習如何生成自然、連貫的文本。當 ChatGPT 生成回復時,人類可以對其進行反饋,例如“好的”、“不太好”等等,這些反饋將被用來調整模型參數,以提高 ChatGPT 的回復質量。Reinforcement Learning from Human Feedback 的訓練方式,可以使 ChatGPT 更加智能,更好地模擬人類的思維方式。不過這種訓練方式也存在一些問題,例如人類反饋的主觀性和不確定性等,這些問題可能會影響模型的訓練效果。因此,我們需要在使用 ChatGPT 進行對話時,謹慎對待反饋,盡可能提供明確、簡潔、準確的反饋,以獲得更好的對話體驗。

  1.3 RLHF的介紹

 122.JPG

  在過去的幾年中,語言模型通過根據人類輸入提示生成多樣化且引人注目的文本顯示出令人印象深刻的能力。然而,什么才是“好”文本本質上很難定義,因為它是主觀的并且依賴于上下文。有許多應用程序,例如編寫您需要創意的故事、應該真實的信息性文本片段,或者我們希望可執行的代碼片段。編寫一個損失函數來捕獲這些屬性似乎很棘手,而且大多數語言模型仍然使用簡單的下一個loss function(例如交叉熵)進行訓練。為了彌補損失本身的缺點,人們定義了旨在更好地捕捉人類偏好的指標,例如 BLEU 或 ROUGE。雖然比損失函數本身更適合衡量性能,但這些指標只是簡單地將生成的文本與具有簡單規則的引用進行比較,因此也有局限性。如果我們使用生成文本的人工反饋作為性能衡量標準,或者更進一步并使用該反饋作為損失來優化模型,那不是很好嗎?這就是從人類反饋中強化學習(RLHF)的想法;使用強化學習的方法直接優化帶有人類反饋的語言模型。RLHF 使語言模型能夠開始將在一般文本數據語料庫上訓練的模型與復雜人類價值觀的模型對齊。

  在傳統的強化學習中,智能的agent需要通過不斷的試錯來學習如何最大化獎勵函數。但是,這種方法往往需要大量的訓練時間和數據,同時也很難確保智能代理所學習到的策略是符合人類期望的。Deep Reinforcement Learning from Human Preferences 則采用了一種不同的方法,即通過人類偏好來指導智能代理的訓練。具體而言,它要求人類評估一系列不同策略的優劣,然后將這些評估結果作為訓練數據來訓練智能代理的深度神經網絡。這樣,智能代理就可以在人類偏好的指導下,學習到更符合人類期望的策略。除了減少訓練時間和提高智能代理的性能之外,Deep Reinforcement Learning from Human Preferences 還可以在許多現實場景中發揮作用,例如游戲設計、自動駕駛等。通過使用人類偏好來指導智能代理的訓練,我們可以更好地滿足人類需求,并創造出更加智能和人性化的技術應用

  2. 方法介紹

121.JPG

  方法總體上包括三個不同步驟:

  監督調優模型:在一小部分已經標注好的數據上進行有監督的調優,讓機器學習從一個給定的提示列表中生成輸出,這個模型被稱為 SFT 模型。

  模擬人類偏好,讓標注者們對大量 SFT 模型輸出進行投票,這樣就可以得到一個由比較數據組成的新數據集。然后用這個新數據集來訓練一個新模型,叫做 RM 模型。

  用 RM 模型進一步調優和改進 SFT 模型,用一種叫做 PPO 的方法得到新的策略模式。

  第一步只需要進行一次,而第二步和第三步可以持續重復進行,以收集更多的比較數據來訓練新的 RM 模型和更新策略模式。

  2.1 監督調優模型

  需要收集數據來訓練有監督的策略模型。為了做到這一點,選定一些提示,讓標注人員寫出預期的回復。這個過程雖然緩慢和昂貴,但最終得到的是一個相對較小、高質量的數據集,可用于調優預訓練的語言模型。選擇了 GPT-3.5 系列中的預訓練模型作為基線模型,而不是對原始 GPT-3 模型進行調優。

  然而,由于此步驟的數據量有限,這個過程得到的 SFT 模型可能會輸出一些不是用戶想要的文本,通常也會出現不一致問題。為了解決這個問題,使用的策略是讓標注者對 SFT 模型的不同輸出進行排序以創建 RM 模型,而不是讓標注者創建一個更大的精選數據集。

  2.2 訓練回報模型

  在這一步中,我們的目標是學習一個目標函數,它可以直接從數據中學習,而不是僅僅從有限的訓練數據中調整語言模型。這個目標函數的作用是為 SFT 模型生成的輸出進行評分,以表示這些輸出對人類來說有多可接受。它反映了人類標注者的偏好和共同準則。最終,這個過程可以得到一個系統,它可以模仿人類的偏好。包括以下步驟:

  利用prompt 生成多個輸出。

  利用標注者對這些輸出進行排序,獲得一個更大質量更高的數據集。

  把模型將 SFT 模型輸出作為輸入,并按優先順序對它們進行排序。

  2.3 使用 PPO 模型微調 SFT 模型

  這一步的目標是通過強化學習來調整 SFT 模型。具體來說,使用了一個叫 PPO 的算法來訓練一個叫做近端策略優化模型的調整模型,用于優化 SFT 模型。

  PPO 是一種用于訓練智能體的算法,可以不斷地調整策略以提高效果。與其他算法不同的是,PPO 會限制策略的更改范圍,以確保訓練的穩定性。此外,PPO 還使用了一個價值函數來估計每個行動的價值,從而更加準確地進行調整。

  在這一步中,PPO 模型使用 SFT 模型作為起點,RM 模型作為基礎,為給定的輸入生成回報。為了避免過度優化,SFT 模型會為每個 token 添加 KL 懲罰因子。

  3. 性能評估

  作為一個大型語言模型,ChatGPT的評估標準可以有多種。在訓練ChatGPT時,通常會使用一些標準的自然語言處理評估指標來評估其性能,如困惑度(perplexity)、BLEU分數、ROUGE分數等。這些指標可以用來評估ChatGPT在生成文本時的流暢度、語義連貫性和表達能力等方面的表現。此外,ChatGPT也可以通過人類評估來評估其性能,例如進行用戶調查或人類評分實驗。這些方法可以提供更貼近實際使用場景的評估,以便更全面地評估ChatGPT在生成自然語言文本方面的表現。

  主要借助以下三個標準進行評估:

  幫助性:判斷模型遵循用戶指示以及推斷指示的能力。

  真實性:判斷模型在封閉領域任務中有產生虛構事實的傾向。

  無害性:標注者評估模型的輸出是否適當、是否包含歧視性內容。

  4. ChatGPT的前景

  ChatGPT 在自然語言處理領域具有廣泛的應用前景。它可以用于語言翻譯、情感分析、問答系統、文本摘要、對話系統等多個任務,幫助人們更好地理解和處理自然語言。此外,ChatGPT 還可以應用于許多其他領域,例如自然語言生成、自動文本摘要、機器翻譯、自動問答、語音識別等。它也可以用于推薦系統、智能客服、智能問答、知識圖譜等領域。ChatGPT 的未來發展前景非常廣闊,可以預見的是,隨著技術的不斷發展,它將在各個領域得到更廣泛的應用和改進。同時,也需要關注和解決一些挑戰,例如如何提高模型的效率和準確性,如何解決對話中的常識推理和知識不足等問題。



更多信息可以來這里獲取==>>電子技術應用-AET<< 

mmexport1621241704608.jpg

本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
  • <strike id="ygamy"></strike>
  • 
    
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          亚洲美女在线国产| 国产精品一区在线观看你懂的| 国产精品色网| 欧美大片在线看| 国产精品盗摄久久久| 欧美一区综合| 乱人伦精品视频在线观看| 久久九九99视频| 欧美一级淫片播放口| 国产精品毛片va一区二区三区| 国产精品美女一区二区在线观看| 亚洲黄色视屏| 这里只有视频精品| 国产精品亚洲аv天堂网| 久久精品国产免费| 国产精品视频观看| 国产日产精品一区二区三区四区的观看方式| 久久精品91久久久久久再现| 伊人成人在线| 亚洲国产精品小视频| 国产精品人人爽人人做我的可爱| 激情欧美国产欧美| 欧美色另类天堂2015| 欧美亚洲自偷自偷| 亚洲视频每日更新| 国内精品久久久久国产盗摄免费观看完整版| 亚洲国产aⅴ天堂久久| 欧美男人的天堂| 一本色道久久综合| 欧美精品v日韩精品v国产精品| 欧美日韩国产a| 日韩一级网站| 欧美精品一区二区三区一线天视频| 老司机免费视频一区二区三区| 欧美一区二区久久久| 快射av在线播放一区| 最新国产成人在线观看| 午夜视频在线观看一区二区| 欧美黑人多人双交| 国产精品美女主播在线观看纯欲| 国产精品综合网站| 久久精品一本久久99精品| 麻豆精品一区二区综合av| 亚洲一区二区三区影院| 国产精品99久久久久久久vr| 欧美电影美腿模特1979在线看| a91a精品视频在线观看| 欧美国产日韩一区二区三区| 久久成人精品视频| 亚洲黄色影院| 国产一区二区三区高清在线观看| 国产精品免费看片| 欧美成人有码| 国模私拍视频一区| 激情国产一区二区| 一区二区亚洲精品| 久久久久久**毛片大全| 久久久久一本一区二区青青蜜月| 国产免费成人av| 久久综合五月天婷婷伊人| 亚洲免费影院| 99精品欧美一区二区蜜桃免费| 国产精品拍天天在线| 欧美日韩一区二区在线视频| 一本久久综合亚洲鲁鲁| 国产亚洲综合精品| 韩国在线视频一区| 国产精品视频免费观看www| 欧美r片在线| 国产精品每日更新在线播放网址| 狠狠入ady亚洲精品| 久久久夜精品| 亚洲欧美高清| 亚洲日本在线观看| 亚洲男同1069视频| 国产精品视频男人的天堂| 亚洲视频在线观看免费| 欧美日韩国产大片| 久久午夜羞羞影院免费观看| 欧美另类人妖| 美女爽到呻吟久久久久| 国产精品视频一二三| 欧美日韩国产小视频在线观看| 中文av一区特黄| 亚洲国产国产亚洲一二三| 国产精品亚洲网站| 91久久精品一区二区三区| 国产精品免费视频xxxx| 亚洲国产成人91精品| 欧美α欧美αv大片| 欧美色另类天堂2015| 欧美日韩精品一本二本三本| 久久综合色播五月| 一区二区三区免费网站| 欧美日韩一区二| 亚洲欧美中文字幕| 麻豆久久精品| 欧美顶级艳妇交换群宴| 亚洲激情影院| 久久人人97超碰国产公开结果| 一区二区三区高清在线| 免费成人高清| 国产精品高潮粉嫩av| 国产一区导航| 国产精品人人爽人人做我的可爱| 欧美多人爱爱视频网站| 欧美日韩免费在线观看| 欧美成人r级一区二区三区| 国产三区精品| 久久国产欧美精品| 欧美三区在线| 亚洲一区二区三区免费观看| 亚洲成人在线网| 国产一区二区三区在线观看免费视频| 欧美日本一道本在线视频| 欧美成人国产va精品日本一级| 久久久中精品2020中文| 亚洲级视频在线观看免费1级| 国产午夜精品美女视频明星a级| 亚洲精品婷婷| 久久国产黑丝| 亚洲激情视频| 欧美成人在线免费观看| 久久久久久一区二区| 久久久久久亚洲精品中文字幕| 欧美一进一出视频| 国产精品久久久久久户外露出| 国产欧美日韩综合一区在线播放| 欧美日韩三级视频| 国产伦精品一区二区三区四区免费| 久久精品欧美日韩| 久久综合久久综合久久综合| 一区二区三区导航| 欧美一激情一区二区三区| 亚洲欧美在线高清| 亚洲欧洲一二三| 欧美一级片一区| 一本色道久久综合亚洲精品按摩| 亚洲一区二区av电影| 欧美一区日韩一区| 亚洲一二区在线| 欧美成人中文字幕在线| 好吊色欧美一区二区三区四区| 好男人免费精品视频| 国产精品最新自拍| 亚洲二区视频| 亚洲精品一区在线观看| 美日韩免费视频| 欧美精品v日韩精品v国产精品| 欧美揉bbbbb揉bbbbb| 欧美成人官网二区| 欧美网站大全在线观看| 欧美天堂亚洲电影院在线观看| 在线观看国产精品网站| 在线免费高清一区二区三区| 欧美激情第3页| 性xx色xx综合久久久xx| 欧美亚洲免费电影| 亚洲视频999| 亚洲精品午夜| 久久九九有精品国产23| 欧美日韩国产91| 欧美亚洲一级片| 国产欧美二区| 夜夜嗨av一区二区三区四季av| 精品999久久久| 麻豆成人小视频| 亚洲高清在线视频| 欧美福利视频在线观看| 欧美另类69精品久久久久9999| 日韩亚洲精品视频| 欧美一区二区女人| 亚洲激情国产| 国内久久精品| 欧美韩日高清| 欧美二区在线播放| 1769国产精品| 99热精品在线| 性色av一区二区三区| 一区二区三区视频在线| 国产精品视频内| 欧美专区在线观看| 免费国产自线拍一欧美视频| 老司机免费视频久久| 激情文学综合丁香| 激情视频一区二区| 国产一区二区电影在线观看| 国产综合色在线| ●精品国产综合乱码久久久久| 欧美激情按摩在线| 亚洲一区二区在线免费观看视频| 国产精品男gay被猛男狂揉视频| 亚洲伊人网站| 亚洲国产日韩美| 国产精品视频免费一区| 欧美黄免费看| 欧美精品一区二区蜜臀亚洲| 亚洲大胆在线| 免费成人av资源网| 欧美三级电影大全| 日韩午夜在线观看视频| 国产精品成人一区| 亚洲欧美日韩精品久久久久| 久久精品视频免费| 欧美母乳在线| 葵司免费一区二区三区四区五区| 欧美va亚洲va日韩∨a综合色| 欧美国产第二页| 国产精品久久久久久久一区探花| 欧美久久久久久蜜桃| 亚洲在线中文字幕| 免费在线亚洲| 日韩视频精品在线观看| 国产精品亚洲综合色区韩国| 日韩特黄影片| 久久成人精品| 新狼窝色av性久久久久久| 欧美精品v国产精品v日韩精品| 一区二区三区精品在线| 国产精品一区2区| 亚洲欧美影音先锋| 久久亚洲精品欧美| 国产亚洲精品成人av久久ww| 欧美另类一区| 国产一区导航| 久久人人爽国产| 一区二区三区四区国产| 欧美日韩在线一区二区三区| 影音先锋日韩资源| 亚洲视频免费看| 亚洲第一福利在线观看| 欧美久久久久中文字幕| 欧美日韩国产一中文字不卡| 一区二区亚洲| 在线视频中文亚洲| 欧美日本一道本在线视频| 久久久久久网址| 欧美亚州韩日在线看免费版国语版| 好吊一区二区三区| 国产精品视频久久一区| 亚洲精品综合久久中文字幕| 久久久综合网| 亚洲高清不卡在线观看| 日韩午夜高潮| 亚洲免费精彩视频| 亚洲国产经典视频| 久久精品一区二区三区四区| 亚洲五月六月| 久久精品2019中文字幕| 蜜桃av一区二区三区| 欧美性猛交99久久久久99按摩| 国产日韩欧美日韩| 国产精品vvv| 久久精品国内一区二区三区| 亚洲欧美日韩精品综合在线观看| 欧美在线免费视屏| 国产亚洲激情在线| 亚洲第一精品夜夜躁人人爽| 99re视频这里只有精品| 国产精品草草| 亚洲国产精品va在线看黑人动漫| 国产亚洲网站| 免费试看一区| 久久久久久国产精品一区| 久久综合色88| 亚洲大片一区二区三区| 日韩一本二本av| 欧美激情视频一区二区三区在线播放| 国产欧美日韩一区二区三区在线| 欧美在线啊v| 亚洲欧洲日产国产综合网| 国产精品综合视频| 欧美日韩1区2区| 国产日韩欧美在线看| 亚洲精品视频免费观看| 亚洲国产日韩欧美一区二区三区| 亚洲大胆人体视频| 亚洲精品中文字幕在线观看| 欧美亚洲日本一区| 欧美一级二区| 国产手机视频一区二区| 亚洲视频精品在线| 日韩图片一区| 亚洲欧美在线网| 欧美激情视频免费观看| 一区二区三区波多野结衣在线观看| 国产午夜精品在线| 亚洲一二三区在线| 欧美成人按摩| 国产人成一区二区三区影院| 欧美一二三视频| 国产精品丝袜白浆摸在线| 中国女人久久久| 最新中文字幕亚洲| 欧美中文字幕在线播放| 欧美怡红院视频| 欧美手机在线| 欧美一区二区三区在线观看视频| 怡红院av一区二区三区| 在线视频精品一| 亚洲娇小video精品| 欧美日韩国产在线观看| 久久精品国产99国产精品| 国产日产精品一区二区三区四区的观看方式| 国产精品va在线播放| 欧美深夜福利| 亚洲影院免费| 欧美日韩一级片在线观看| 羞羞答答国产精品www一本| 亚洲国产美女精品久久久久∴| 欧美精品97| 国产精品久久97| 欧美视频在线观看一区二区| 亚洲精品免费观看| 精品成人一区二区三区四区| 国产自产在线视频一区| 久久国产精品99国产精| 国内精品嫩模av私拍在线观看| 欧美一级网站| 国产一区视频网站| 欧美日韩成人一区二区三区| 久久亚洲综合| 欧美裸体一区二区三区| 亚洲国产婷婷香蕉久久久久久99| 久久在精品线影院精品国产| 亚洲毛片一区| 久久夜色精品国产噜噜av| 亚洲一区二区三区在线看|