yo 大家,
上星期二(7/18)幾位Stanford和UC Berkeley的學者們發表了一篇論文 — How is ChatGPT’s behavior changing over time。內容是在講述ChatGPT在最近這幾個月的表現不如以往。這篇文章引起了大家的熱烈反應和共鳴,許多人也紛紛表示自己也覺得最近ChatGPT真的越來越笨,好像沒有像之前一樣那麼好用了。
這篇論文比較了今年三月跟六月的ChatGPT版本,並測試這兩個版本在幾個面向上的表現。測試包含了像是「解決數學問題」、「回答敏感問題」、「程式碼生成」、和「視覺推理」等面向。結果顯示GPT-4的表現越來越差,尤其在解決數學問題方面的能力完全是大不如前,其他面向也多有被削弱的傾象。
因為我自己其實沒有用過付費版的ChatGPT(GPT-4),所以其實我自己沒有它變笨的感受。不過針對著個議題我們還是可以從不同角度切入,簡單分析一下可能是哪些原因讓大家覺得ChatGPT變笨了?
那我們開始吧!
不是ChatGPT變笨了,而是我們變聰明了?!
都是心理作用惹的禍 😤
「大家都說ChatGPT變笨了,而且上面這篇頂尖研究學者們發表的論文結果也都說ChatGPT真的變笨了!」
現在的風向似乎滿一邊倒的往這邊吹,不過OpenAI的產品副總Peter Welinder可完全不同意這個說法。他表示ChatGPT沒有變笨,想反的它越來越聰明了。大家之所以會覺得ChatGPT變笨了,只是因為當我們用了一個產品越來越久,我們就越能發現一些之前沒注意到的問題,覺得ChatGPT變笨完全只是我們的心理作用,如此而已!
其實我覺得這種可能性是有可能的。想想看我們常常看到一個拍得很好的產品宣傳影片,然後就手滑下訂。結果當我們越用越久、跟產品越來越熟悉、遇過各式各樣的情況之後,我們才會發現它有哪些問題。這些問題其實一直以來都存在,只是通常這些很細微的問題都不是一開始會被注意到的,都要用過一陣子之後才會發現。
回到ChatGPT上,可能大家之前可能都還抱著試玩new tech的心態來對待它,當大家開始將它應用在工作、生產力上之後就會開始發現它的弱點。
數字真的會騙人 🔢
「但這篇論文做了那麼多實驗、提供了許多數據都清清楚楚地顯示ChatGPT(GPT-4)變笨了,總不可能騙人吧?」
當然這些表格上的數字不太可能會騙人,不過這些數字跟測驗真的能顯示ChatGPT變笨嗎?我覺得其實很難說。有做過研究的人們應該就會知道,我們首先要搞清楚那些數字到底是怎麼產生的。
舉「程式碼生成」為例,這篇研究評估這項能力的標準為:生成的程式碼能不能直接被執行。但是這卻沒有評估到程式碼品質的好壞,或這段程式碼是否是正確的?那這個數字就算變高或變低,也無法代表ChatGPT整體「生成程式碼」的能力變弱了,只能說它「生成可執行的程式」的能力變弱了。
要評估這種大型語言模型的「好壞」其實非常非常難,因為我們有太多面向要考慮了!總體來說,評估模型的好壞不只是一個維度、一個數字的高低而已,每一個面向中可能又再包含了數百、數千個子面向要考慮。所以,很可能在這篇論文所評估的面向中ChatGPT真的變笨了,但在OpenAI內部的評估中ChatGPT實際上一直都在變聰明!
如果ChatGPT真的變笨了
雖然上面都在幫ChatGPT抱不平,但如果OpenAI真的刻意讓ChatGPT變笨了呢?基於OpenAI絕對不會無腦地讓ChatGPT變笨,所以可能的情況就只有:
OpenAI為了省成本,所以刻意把ChatGPT的模型縮小。
為了讓ChatGPT變成更「負責任的AI」,不得已才犧牲了其他面向的效能。
OpenAI是故意的?
很粗略地說,若ChatGPT模型大:聰明,回答慢,花錢(計算資源);想反地,ChatGPT模型越小:相對笨一些,回答快,省錢。
有可能OpenAI為了省成本,所以決定把原本大的ChatGPT模型蒸餾後(Model Distillation)變成小一點。如果是這種情況的話,那ChatGPT變笨也是理所當然的了。
💡模型蒸餾(Model Distillation)簡單來說就是:為了減少計算成本並提升計算速度,將原本的ChatGPT模型縮小。被蒸餾完縮小後的ChatGPT變得輕巧的同時也會全方位地變笨一些。
OpenAI是不得已的?
相信大家都知道ChatGPT這種大型語言模型不好好規範的話會對人類社會產生很多負面的影響,所以開發模型也越來越注重要開發「負責任的AI」。要達成這個目標有個方法就是在已有的模型之上進行模型微調(Model Fine-tuning),或是清理訓練資料。所以一種可能的情況是:在ChatGPT被微調成更加「守規矩」的同時,犧牲了其他方面的能力(ex: 寫程式、解數學題等等)。
💡模型微調(Model Fine-tuning)直觀一點的解釋就像是:如果我們給了一個小孩子1000張各式各樣蘋果圖片讓它學會辨認什麼是蘋果(model training),那當我們想讓他學會辨認「特定一種蘋果」時,我們可能只需要給他100張該種蘋果的圖片(fine tuning),他應該就能學會了。
LLM百家爭鳴
不管ChatGPT到底有沒有變笨,我想OpenAI和ChatGPT都為這世界帶來了一股嶄新的潮流。他對社會最大的貢獻並不是他的演算法、亦或ChatGPT這個產品本身的能力,重點是它逼著整個科技業跟它一起起舞,讓各種不同的LLM百家爭鳴。OpenAI促成了微軟整合GPT的Bing Search、Google的Bard、Meta開源的llama 2等等,這世界加速迎來和生成式AI共舞的時代。
每個產品都會有它的定位和取捨,可能有些LLM數學沒那麼好,但是很會整理資料;可能有些LLM回答超級慢,可是卻超級準確;也可能有些LLM回答不夠精確,但卻回答超快。但總之這些科技公司們會慢慢找出來定位,而我們身為使用者只要知道什麼時候該用哪個LLM來完成任務就OK了~
這週就醬啦!
Have a great week :)
-KY