一道數學題吵翻天，實測十家大模型：ChatGPT差點翻車

2024-07-19辟謠

13.11和13.8誰大？——這樣一道簡單的「小升初」數學題難倒一眾網友和大模型。

「13.8 13.11」已經成為網路新熱梗。

上周五（7月12日）綜藝【歌手2024】投票率出爐，孫楠以13.8%的投票率位居第三，Chanté Moore以13.11%的投票率排在第四。一位網友留言質疑「13.8%比13.11%高？」迅速引起熱議，隨後「13.8 13.11」話題登上微博熱搜。

圍繞這樣一道簡單數學題，南都記者提問了9家國產大模型以及全球大模型標桿ChatGPT3.5。結果顯示，國產大模型中6家答對3家答錯，就連ChatGPT3.5也差點「翻車」。

大模型給出的離譜回答：13.11比13.8多了0.31

7月16日下午，南都記者實測阿裏通義千問、百度文心一言、智譜清言、騰訊元寶、科大訊飛星火、字節跳動豆包、學而思九章大模型、面壁智慧Luca、月之暗面Kimi等9家國產大模型。

當南都記者輸入「13.11和13.8，哪個數值更大？」時，Luca、Kimi、智譜清言均錯誤地表示13.11更大。其余6家大模型給出了正確答案，認為13.8更大。

Kimi認為，13.11比13.8更接近14。

當南都記者進一步追問時，「你確定13.11大於13.8嗎」，Kimi回復：「是的，我確定。」然後一本正經地解釋，「13.11與13.8的整數部份相同，由於小數部份0.11是兩位小數，而0.8只有一位小數，13.11比13.8更接近14，因此13.11是更大的數。」

智譜清言稱，13.11在百分位上比13.80大。

智譜清言是透過比較小數部份得出錯誤結論，稱「13.11的百分位是1，而13.80（即13.8）的百分位是0。在這種情況下，1大於0。」「簡而言之，13.11實際上等於13.80+0.01+0.01，這使得它比13.80（即13.8）大。」

Luca則錯誤地回復稱，「因為13.11比13.8多了0.31，所以13.11的數值更大。」

Luca表示，13.11比13.8多了0.31。

回答正確的6家國產大模型，都在小數的比較上做出正確判斷。

通義千問的解釋。

例如，通義千問表示：「對於13.11而言，十分位是1；而對於13.8而言，十分位是8。由於8大於1，因此可以立即得出結論，13.8比13.11大。所以，13.8是這兩個數值中更大的一個。」

文心一言的解釋。

文心一言還進行了一番簡單運算：「0.8是8個0.1，而0.11只是1個0.1加上1個0.01。顯然，8個0.1比1個0.1加上1個0.01要大。」

當南都記者用新的帳號重新開機對話，並嘗試變換語序問答：「13.8和13.11，哪個數值更大」，Luca、Kimi、智譜清言等三家大模型也未反應過來，堅持認定13.11更大。

ChatGPT3.5差點「翻車」？大模型失誤原因何在

有意思的是，不僅國產大模型搞不清楚這道簡單的數學題，國外主流的大模型也曾在類似問題上集體翻車。此前有AI工程師曬出問答截圖顯示，9.11和9.9誰更大？ChatGPT-4o、谷歌Gemini、Claude 3.5 Sonnet都堅定地認為9.11更大。

在南都記者實測中，面對「13.11和13.8，哪個數值更大？」這一問題，ChatGPT3.5最初也給出了錯誤的答案。

當被問及「13.11和13.8，哪個數值更大？」時，ChatGPT3.5首先表示13.11比13.8大。不過當南都記者進一步追問時，ChatGPT3.5比較小數後修正了錯誤的答案，最終認定13.8比13.11大。

ChatGPT3.5險些「翻車」。

一道簡單數學比較題，大模型為何頻頻出錯？

技術專家告訴南都記者，在人們看來，這是一道小學生的數學算術題，但大模型不一定這樣認為，它更經常見到這些數位是包含在軟體版本號、股票、基金或者匯率等資訊裏，它們出現時跟數位大小本身沒有關聯。而大模型看到這樣一組數位，意識不到應該做雙精度浮點運算。

還有業內人士提出了一種解釋稱，這是大模型在輸入詞和標點向量化排序時，沒有把順序或者關聯邏輯弄對，忽略了小數點也是數位的一部份。

采寫：南都記者黃莉玲李玲

視訊：南都記者王子黎