當前位置: 華文天下 > 辟謠

一道數學題吵翻天,實測十家大模型:ChatGPT差點翻車

2024-07-19辟謠

13.11和13.8誰大?——這樣一道簡單的「小升初」數學題難倒一眾網友和大模型。

「13.8 13.11」已經成為網路新熱梗。

上周五(7月12日)綜藝【歌手2024】投票率出爐,孫楠以13.8%的投票率位居第三,Chanté Moore以13.11%的投票率排在第四。一位網友留言質疑「13.8%比13.11%高?」迅速引起熱議,隨後「13.8 13.11」話題登上微博熱搜。

圍繞這樣一道簡單數學題,南都記者提問了9家國產大模型以及全球大模型標桿ChatGPT3.5。結果顯示,國產大模型中6家答對3家答錯,就連ChatGPT3.5也差點「翻車」。

大模型給出的離譜回答:13.11比13.8多了0.31

7月16日下午,南都記者實測阿裏通義千問、百度文心一言、智譜清言、騰訊元寶、科大訊飛星火、字節跳動豆包、學而思九章大模型、面壁智慧Luca、月之暗面Kimi等9家國產大模型。

當南都記者輸入「13.11和13.8,哪個數值更大?」時,Luca、Kimi、智譜清言均錯誤地表示13.11更大。其余6家大模型給出了正確答案,認為13.8更大。

Kimi認為,13.11比13.8更接近14。

當南都記者進一步追問時,「你確定13.11大於13.8嗎」,Kimi回復:「是的,我確定。」然後一本正經地解釋,「13.11與13.8的整數部份相同,由於小數部份0.11是兩位小數,而0.8只有一位小數,13.11比13.8更接近14,因此13.11是更大的數。」

智譜清言稱,13.11在百分位上比13.80大。

智譜清言是透過比較小數部份得出錯誤結論,稱「13.11的百分位是1,而13.80(即13.8)的百分位是0。在這種情況下,1大於0。」「簡而言之,13.11實際上等於13.80+0.01+0.01,這使得它比13.80(即13.8)大。」

Luca則錯誤地回復稱,「因為13.11比13.8多了0.31,所以13.11的數值更大。」

Luca表示,13.11比13.8多了0.31。

回答正確的6家國產大模型,都在小數的比較上做出正確判斷。

通義千問的解釋。

例如,通義千問表示:「對於13.11而言,十分位是1;而對於13.8而言,十分位是8。由於8大於1,因此可以立即得出結論,13.8比13.11大。所以,13.8是這兩個數值中更大的一個。」

文心一言的解釋。

文心一言還進行了一番簡單運算:「0.8是8個0.1,而0.11只是1個0.1加上1個0.01。顯然,8個0.1比1個0.1加上1個0.01要大。」

當南都記者用新的帳號重新開機對話,並嘗試變換語序問答:「13.8和13.11,哪個數值更大」,Luca、Kimi、智譜清言等三家大模型也未反應過來,堅持認定13.11更大。

ChatGPT3.5差點「翻車」?大模型失誤原因何在

有意思的是,不僅國產大模型搞不清楚這道簡單的數學題,國外主流的大模型也曾在類似問題上集體翻車。此前有AI工程師曬出問答截圖顯示,9.11和9.9誰更大?ChatGPT-4o、谷歌Gemini、Claude 3.5 Sonnet都堅定地認為9.11更大。

在南都記者實測中,面對「13.11和13.8,哪個數值更大?」這一問題,ChatGPT3.5最初也給出了錯誤的答案。

當被問及「13.11和13.8,哪個數值更大?」時,ChatGPT3.5首先表示13.11比13.8大。不過當南都記者進一步追問時,ChatGPT3.5比較小數後修正了錯誤的答案,最終認定13.8比13.11大。

ChatGPT3.5險些「翻車」。

一道簡單數學比較題,大模型為何頻頻出錯?

技術專家告訴南都記者,在人們看來,這是一道小學生的數學算術題,但大模型不一定這樣認為,它更經常見到這些數位是包含在軟體版本號、股票、基金或者匯率等資訊裏,它們出現時跟數位大小本身沒有關聯。而大模型看到這樣一組數位,意識不到應該做雙精度浮點運算。

還有業內人士提出了一種解釋稱,這是大模型在輸入詞和標點向量化排序時,沒有把順序或者關聯邏輯弄對,忽略了小數點也是數位的一部份。

采寫:南都記者黃莉玲 李玲

視訊:南都記者王子黎