協助任何地方的開發人員順利加速人工智慧
若要擴大人工智慧商機,開發人員需要取得最快速的人工智慧部署方法,以及最適合特定工作負載的最佳效能。Arm 致力於在整個 Arm 平台達到最高的人工智慧效能,協助確保每位開發人員、每個模型及每項工作負載都能順暢加速。
Arm Kleidi 讓人工智慧在 CPU 達到無可比擬的效能
Arm CPU 是所有 Arm 平台的核心,以其普及性為眾多人工智慧推論工作負載提供彈性節能的目標,包括深度學習及生成式人工智慧。Arm Kleidi 的靈感來自希臘文的「key」,旨在確保前述工作負載能在基礎的 Arm Cortex-A 或 Arm Neoverse CPU 達到最高效益。
與關鍵夥伴合作在每一處加速人工智慧
Arm Kleidi 的使命是與頂尖人工智慧框架、雲端服務供應商及機器學習獨立軟體供應商社群合作,以提供完整的機器學習堆疊,並讓數十億計的工作負載能在開機後立即提升推論效能,無需額外的開發人員工作或專業知識。
PyTorch
Arm 與 PyTorch 社群密切合作,協助確保在 PyTorch 執行的模型能在 Arm 架構上順利運作,讓最繁重的人工智慧工作負載也能順暢加速。
BERT-Large
Arm 持續努力在 Arm CPU 提升 PyTorch 的推論效能,包括提供 Eager Mode 及 Graph Mode 等最佳化的主要執行模式。
整合 Kleidi 使得 Llama 模型推論效能提升 18 倍、Gemma 2 2B 提升 15 倍,而自然語言處理 (NLP) 模型也達到更高效能,包括 Bert-Large 提升 2.2 倍效能。
Llama 3.1 8B
在使用基於 Arm Neoverse V2 架構的 Graviton4 處理器時,於 PyTorch 套用 KleidiAI 最佳化,可讓示範的聊天機器人 token 產生速率如預期地提升 12 倍。
這項示範顯示在利用現有 Arm 架構運算能力的情況下,使用 LLM 建構人工智慧應用程式有多麼容易。
RoBERTa
AWS 與 Arm 合作最佳化 PyTorch 的 torch.compile 功能,用於搭載 Arm 運算函式庫 (ACL) 核心 (使用 oneDNN) 的 Neoverse V1 架構 Graviton3 處理器。
這項最佳化讓 Hugging Face 最熱門的 NLP 模型推論效能提升兩倍。
FunASR Paraformer-Large
FunASR 是先進的開放原始碼自動語音辨識 (ASR) 工具套件,由阿里巴巴達摩院 (Alibaba DAMO Academy) 開發而成。
我們透過 oneDNN 將 ACL 與 PyTorch 整合,在基於 Neoverse N2 架構的 AliCloud Yitian710 處理器執行 Paraformer 模型時,發現效能提升了 2.3 倍。
ExecuTorch
Arm 和輕量級機器學習框架 ExecuTorch 共同在邊緣實現高效的裝置內介面功能。
Llama 3.2 1B
受惠於 Arm 和 Meta 的合作努力成果,人工智慧開發人員現可在 Arm CPU 上執行比以往快上 20% 的量化 Llama 3.2 模型。
透過 KleidiAI 與 ExecuTorch 整合並開發最加量化方案,我們在行動裝置上針對生成式人工智慧工作負載的預先填入階段已達到每秒超過 350 個 token 的速度。
Llama.cpp
為了展示 Arm 架構 CPU 處理 LLM 推論的能力,Arm 與合作夥伴正在 llama.cpp 實作最佳化的 int4 及 int8 核心,以運用各種更新型的指令。
MediaPipe
Arm 與 Google AI Edge 合作的 MediaPipe 及 XNNPACK,可在目前及未來的 Arm CPU 加速人工智慧工作負載,協助開發人員提供出色的人工智慧效能,適用於行動裝置、網際網路、邊緣及物聯網。
Gemma 1 2B
Arm 與 Google AI Edge 合作將 KleidiAI 與 MediaPipe 框架整合,支援 Gemma 及 Falcon 等多種 LLM。
透過 XNNPACK 進行 KleidiAI 整合後,我們在 Arm 架構高階智慧型手機的 Gemma 2B LLM 執行聊天機器人示範時,發現 TTFT 加速 30%。
混元 (Hunyuan)
騰訊的混元人工智慧框架支援混元 LLM 通用模型,可在智慧型手機等各種裝置實現人工智慧功能。
混元
Arm 持續與騰訊合作,將 Kleidi 技術整合至包含 100B 以上參數的混元 LLM 之中。
雙方於 2024 年騰訊全球數位生態大會宣布這項合作關係,預期對實際工作負載產生正面影響。
加速 CPU 效能的關鍵開發人員技術
Arm Kleidi 包含最新的開發人員支援技術,設計用意在於推展人工智慧的模型功能、準確度及速度。
KleidiAI 及 KleidiCV 函式庫為輕量型核心,可協助機器學習 (ML) 及電腦視覺 (CV) 框架輕鬆以最佳效能為目標,並運用最新功能在 Arm CPU 架構設計中強化人工智慧和電腦視覺。
完整齊全且具有彈性的函式庫,可協助獨立軟體供應商取得最適合 Cortex-A 及 Neoverse CPU 的機器學習功能。函式庫不受作業系統影響,並可移植至 Android、Linux 及裸機系統。
大規模釋放 CPU 效能
Kleidi 可在全系列的 Arm Neoverse 及 Arm Cortex-A CPU 輕鬆實現最佳化。這些技術運用 Arm 架構的進階功能,例如 Arm 可擴展向量延伸指令集 (SVE) 及 Arm 可擴展矩陣延伸指令集 (SME),目標是加速人工智慧效能。