新版ChatGPT融合思維鏈技術及反思 先拆解問題步驟回答更精準
日前Open AI推出最新版的ChatGPT-o1模型,比起先前版本,o1模型有更卓越出色的推理能力,能用於解決更複雜的問題,因此在各種的評比測試中可達到較高的準確率,而這背後與它所使用的思維鏈(Chain of Thought, CoT)技術息息相關。不僅如此,o1模型也呈現了具備自我反思(self-reflection)的能力,能在推論最後答案時提出自我糾正,這也是它比起先前版本能再提高準確性的原因。以下就來看看在與大語言模型(LLM)進行提示互動時如何運用思維鏈及反思吧。
思維鏈是指在模型產出結論之前,先將問題拆解成一個個的步驟,再透過逐步推理得到最後的結果,也可藉由反覆釐清問題的過程來協助模型推理。思維鏈特別適用於有多重步驟的推理任務,例如數學四則運算、法律推理、醫療診斷推理,或是需根據多種條件來做決定的任務。在解數學題時,可以請它在給出答案前先列出推理的步驟;在給醫療診斷時,請它依照症狀列出可能的診斷,再解釋每個診斷的判斷依據,最後總結給出一個最有可能的診斷。
而反思的能力則是指模型最後會去檢視自己推理的過程,並檢查結論是否有錯誤,或是一開始給出的初始回覆是否含有潛在的問題未思考到,特別適合可能會有誤解問題或簡化問題的情況下使用。日前美國新創團隊發表其利用反思微調(Reflection Tuning)技術的Reflection 70B模型,就是輸出前先自行檢查並反思生成的結果,模型推出並開源後在社群引起廣泛討論,第三方組織測試評估後,認為雖不如其所聲稱宣傳般的準確,但仍有不錯效果。
舉例來說,請LLM解一道邏輯問題:「如果所有的狗是動物,而有些動物是鳥類,那麼可以下結論說有些狗是鳥?」
模型在初始的回答:「是,因為有些動物是鳥,而所有狗是動物,所以有些狗可能是鳥。」
經過反思後,模型回應:「所有狗是動物,而有些動物是鳥,並不表示狗是鳥,因為動物的類別大於狗以及鳥,此邏輯不正確。有些狗可能是鳥的結論是不正確的,是動物不代表就是鳥。」
最後模型回答:「不行,無法下結論有些狗是鳥。」
在實際運用上,尤其是有多重步驟需思考推敲的問題適合同時使用思維鏈及反思技術,先使用思維鏈來拆解問題,再結合反思來檢討結果是否有誤,適合應用在解數學題、開發程式、科學研究等需要精準推理的領域。這也是新版ChatGPT-o1尤其是o1-preview以及o1-mini模型,整合了思維鏈技術及自我反思能力後能再次提升準確率的原因。
- 首圖來源:depositphotos