Arm 運算平台協助全新 Llama 3.2 LLM 實現 AI 推論的全面加速和擴展

September 26, 2024

新聞重點： 

在 Arm CPU 上運行 Meta 最新 Llama 3.2 版本，從雲到端的效能均獲得顯著提升，為未來 AI 工作負載提供強大支援。 
Meta 與 Arm 的合作加快應用案例的創新速度，例如個性化的裝置端推薦以及日常任務自動化等。
Arm 十年來始終積極投資 AI 領域，並廣泛開展開源合作，為 1B 至 90B 的各個 LLM 實現在 Arm 運算平台上無縫運行。

人工智慧（AI）的高速發展代表各種大型語言模型（LLM）的新版本不斷推陳出新。要充分發揮 AI 的潛力並掌握因此而來的機會，需要實現 LLM 從雲到端的廣泛部署，其中也帶動了對運算和能源需求的大幅成長。整個生態系正攜手尋找因應此一挑戰的解決方案，不斷推出新的、且更高效率的開源 LLM，以便大規模實現各種 AI 推論工作負載，加快為使用者帶來全新、快速的 AI 體驗。

為此，Arm 與 Meta 展開緊密合作，在 Arm CPU 上啟用新的 Llama 3.2 LLM，整合開源創新與 Arm 運算平台的優勢，以應對 AI 帶來的挑戰。受惠於 Arm 的持續投資及與各新型 LLM 的合作，在 Arm CPU 上運行 AI 的優勢在生態系中脫穎而出，使 Arm 成為 AI 推論開發人員的首選平台。

加速從雲到端的 AI 效能

小型 LLM（如 Llama 3.2 1B 和 3B）能夠支援基於文本的基礎生成式 AI 工作負載，對於大規模 AI 推論的實現相當重要。透過 Arm CPU 優化核心在 Arm 技術驅動的行動裝置上運行新的 Llama 3.2 3B LLM，可讓提示詞（Prompt）處理速度提高五倍，詞元（token）生成速度提高三倍，在生成階段實現每秒 19.92 個詞元。這將直接減少了在裝置上處理 AI 工作負載的延遲，大大提升了使用者的整體體驗。此外，當邊緣端能處理的 AI 工作負載越多，往返雲端傳輸資料所節省的電量就越多，進而節省了能源和成本。

除了在邊緣端運行小型模型，Arm CPU 也能支援更大的模型（如 Llama 3.2 11B 和 90B）在雲端運行。11B 和 90B 的模型非常適合雲端基於 CPU 的推論工作負載，可生成文本和圖像，如同在 Arm Neoverse V2 上的測試結果顯示。在基於 Arm 架構的 AWS Graviton4 上運行 11B 的圖像和文本模型，可在生成階段實現每秒 29.3 個詞元的表現，遠遠超出人類大約每秒閱讀五個詞元的速度。

AI 將透過開源創新和生態系協作迅速擴展

能公開獲取各個新的 LLM（如 Llama 3.2）相當關鍵。開源創新正以極為快速的速度發展，在之前的版本中，開源社群在不到 24 小時的時間內便能在 Arm 上部署並運行新的 LLM。

Arm 將透過 Arm Kleidi 進一步支援軟體社群，讓整個 AI 技術堆疊能夠充分發揮此一經過優化的 CPU 效能。Kleidi 可在任何 AI 框架上釋放 Arm Cortex 和 Neoverse CPU 的 AI 功能和效能，無需應用程式開發人員進行額外的整合工作。

透過最近的 Kleidi 與 PyTorch 整合以及正在推進的與 ExecuTorch 整合，Arm 正在為基於 Arm CPU 的開發人員提供從雲到端的無縫 AI 效能。受惠於 Kleidi 與 PyTorch 的整合，在基於 Arm 架構的 AWS Graviton 處理器上運行 Llama 3 LLM 的詞元首次回應時間加快了 2.5 倍。

同時，在行動裝置上，透過 KleidiAI 函式庫的協助，使用 llama.cpp 函式庫在新的 Arm Cortex-X925 CPU 上運行 Llama 3 的詞元首次回應時間與參考實作相比加快了 190%。

建構 AI 的未來

Arm 與 Meta 的合作成為產業合作的新標竿，它彙聚了 Arm 運算平台的靈活性、普及性和 AI 功能，以及 Meta 等產業領導者的技術專長，共同釋放 AI 被廣泛應用的新機會。無論是利用裝置端 LLM 滿足使用者的個性化需求，如根據使用者所在的位置、日程和偏好來執行任務，還是透過企業級應用來優化工作效率，讓使用者更專注於創造價值的任務，Arm 技術的整合都為未來奠定了基礎。裝置將不再只是命令和控制工具，更能在提升使用者整體體驗方面發揮積極的作用。

在 Arm CPU 上運行 Meta 最新 Llama 3.2 版本，其 AI 效能展現顯著的提升。這類開放式合作是實現無處不在的 AI 創新、促進 AI 可持續發展的最佳途徑。透過各項新的 LLM、開源社群和 Arm 的運算平台，Arm 正在建構 AI 的未來，到 2025 年，將有 1,000 多億台基於 Arm 架構的裝置支援 AI。

附加資源

對於行動裝置和邊緣生態系開發人員來說，Llama 3.2 可在基於 Arm Cortex CPU 的裝置上高效率地運行。請參閱我們的文件，獲取開發人員資源。

開發人員可從所有主要的雲端服務供應商存取 Arm 的資源，並在基於 Arm Neoverse CPU 上的雲端運行 Llama 3.2。請參閱我們的文件，瞭解如何開始使用。

關於 Arm

Arm 是業界效能最高且最節能的運算平台，其無可比擬的應用範疇觸及全球所有連網使用者。為因應全球對運算永無止境的需求，Arm 提供先進的解決方案，使全球領先的科技公司得以釋放前所未有的 AI 體驗與功能。透過與全球最大的運算生態系及 2,200 萬名軟體開發人員的共同努力，我們正在 Arm 平台上建構 AI 的未來。

Arm 帳號

註冊帳戶

Arm 運算平台協助全新 Llama 3.2 LLM 實現 AI 推論的全面加速和擴展