辟謠！Apple Intelligence背後不是GPT-4o，而是蘋果自研！

2024-06-13辟謠

剛剛結束的蘋果WWDC可謂是萬眾矚目。

然而，蘋果只是在釋出會上提了一嘴powered by GPT4o，結果國內一些不專業的媒體直接報道成，Apple Intelligence是套殼的GPT4o，還有吃瓜群眾跑來我們昨天推文的評論區跟我們杠，真是大無語。

海外的社交媒體上同樣有大量謠傳，於是，蘋果坐不住了，官方緊急釋出了一篇網誌，正式公布了Apple Intelligence背後的基礎生成模型是——蘋果自研的模型！

官博連結：
https://machinelearning.apple.com/research/introducing-apple-foundation-models

雖然Siri確實可以直接呼叫GPT介面，但這只是僅僅是Apple Intelligence可呼叫的外部模型之一 。

根據網誌介紹，Apple Intelligence背後的基礎模型是蘋果自研的 一個約30億參數的端側語言模型（Apple On-Device） 和一個透過私有雲端運算並在 Apple 芯片伺服器上執行的 更大的基於伺服器的語言模型（Apple Server），這些模型都針對蘋果使用者的日常行為進行了微調訓練。

3.5研究測試：

hujiaoai.cn

4研究測試：

askmanyai.cn

Claude-3研究測試：

hiclaude3.com

妥妥地是為自己正名了。畢竟大模型如火如荼的一年半時間裏蘋果直接「銷聲匿跡」，這次終於悶聲幹了件大事，肯定不能被隔壁偷家了。

Apple Intelligence 背後是多個模型

Apple Intelligence由多個強大的LLM組成，針對使用者體驗進行了設計和微調，能夠執行編寫和最佳化文本摘要、確定通知優先級、為與家人和朋友的對話建立有趣的影像，以及簡化跨套用的操作等任務。

蘋果官網目前詳細介紹了其中兩個模型：其中一個參數量為3B，可以直接在手機等終端器材上執行；另一個是更大的語言模型，雖然沒有明確參數量，但其效能可以與GPT-4對標。該模型可透過私有雲端運算獲得，並在Apple的伺服器上執行。

接下來，我們一起來看看這兩個模型的技術實作是如何完成的。

模型的訓練主要分為以上5步 ，我們一個一個看。

數據預處理和模型預訓練

基礎模型是在Apple的AXLearn框架上訓練的，這是Apple在2023年釋出的一個開源專案。AXLearn構建在JAX和XLA之上，能夠在各種訓練硬件和雲平台上高效且可延伸地訓練模型，包括TPU以及雲端和原生的GPU。此外，還結合使用了數據並列、張量並列、序列並列和完全分片數據並列（FSDP）來在數據、模型和序列長度等多個維度上擴充套件訓練。

訓練數據均來源於授權數據，包括為增強特定功能而選擇的數據，以及透過爬蟲AppleBot收集的公開數據，並刪除了私密敏感和帶有侮辱歧視字眼的數據。

模型Post-Training

Apple在官網上提到，他們使用了兩個原創的演算法用於後訓練，顯著提升了模型的指令執行效果。

(1) 使用教師委員會（ teacher committee）的拒絕采樣微調演算法（rejection sampling fine-tuning algorithm）

(2) 使用映像下降策略最佳化（ mirror descent policy optimization）和留一優勢估計（eave-one-out advantage estimator）的來自人類反饋的強化學習 (RLHF) 演算法

模型最佳化

(1) 分組查詢註意力機制 （Grouped Query Attention, GQA）：無論是器材端還是伺服器端的模型，都使用了分組查詢註意力機制。透過共享的輸入和輸出詞匯嵌入表，以減少記憶體需求和推理成本。器材端模型的詞匯量為49K，而伺服器模型的詞匯量為100K，包括額外的語言和技術詞匯。

(2) 低位元化量化 （Low-bit）：在器材端推理中，采用了低位元化技術，這是實作必要的記憶體、功耗和效能要求的關鍵最佳化技術。為了保持模型質素，開發了一個新的框架，使用LoRA介面卡結合了混合的2-bit和4-bit配置策略——平均每個權重為3.5bit，以達到與未壓縮模型相同的準確性。

(3) Talaria ：Talaria是一個互動式模型延遲和功耗分析工具，可以更好地指導每個操作的位元速率選擇。模型還使用了啟用量化和嵌入量化，並開發了一種方法，在神經引擎上實作高效的Key-Value（KV）緩存更新。

透過這一系列最佳化，在iPhone 15 Pro上可以實作每個提示token約0.6毫秒的首個token延遲，以及每秒生成30個token的速度。這種效能是在不使用token推測技術的情況下實作的，而使用該技術後，token生成速度將進一步提高。

模型微調

模型微調的方法是Adapter微調，即把小型神經網絡模組插入預訓練模型的各層，只訓練這些小網絡而不改變預訓練模型的參數。具體來說，對註意力矩陣、註意力投影矩陣以及點狀前饋網絡中的全連線層進行適配，從而調整Transformer架構中解碼層的合適部份。

透過僅微調介面卡層，基準預訓練模型的原始參數保持不變，從而保留了模型的通用知識，同時將介面卡層調整為支持特定任務。模型使用了16位元表示介面卡參數，對於約30億參數的器材端模型，rank 16 介面卡的參數通常只需要幾十兆字節。這些介面卡模型可以動態載入，暫時緩存於記憶體中，並進行交換——使基礎模型能夠在執行任務時動態專門化，同時高效管理記憶體並保證作業系統的響應速度。