Arm 終端產品運算子系統為 AI 使用者體驗提供運算平台
June 28, 2024
作者:Arm 終端產品事業部產品管理資深總監 Kinjal Dave
Arm 終端產品運算子系統(CSS)在最廣泛類別的消費性裝置中,帶來效能、效率和可擴展性的大幅提升,並採用三奈米工藝量產就緒的 CPU 和 GPU 實體實作。
人工智慧(AI)正在改變消費性裝置,並革新生產力、創造力和娛樂體驗,這將帶來更高程度的自動化、沉浸感和個性化,為開發人員和終端使用者提供龐大機會。隨著推動行動系統單晶片(SoC)裝置端生成式 AI 的發展,AI 技術正持續演進。
有鑑於 Arm 全面運算解決方案的成功,我們宣佈推出運用於消費性裝置的全新運算子系統,即 Arm 終端產品運算子系統(CSS),做為 AI 體驗的運算基礎,它能在最廣泛類別的消費性裝置中,帶來效能、效率和可擴展性的大幅提升。
Arm 終端產品運算子系統囊括最新的 Armv9.2 Cortex CPU 叢集和 Arm Immortalis 與 Arm Mali GPU、CoreLink 互連系統 IP,以及知名晶圓製造廠採用的三奈米工藝量產就緒的 CPU 和 GPU 實體實作。該平台為我們的合作夥伴提供了生產晶片的最快途徑。透過實體實作,Arm 的合作夥伴能夠利用尖端三奈米工藝的各種優勢,同時實現彈性靈活、可客製化的晶片設計。
深入瞭解 Arm 終端產品運算子系統
Arm 終端產品運算子系統採用最新 Armv9.2 CPU 叢集,其中整合了 Arm 目前頂級效能的 Arm Cortex-X925 CPU、最高效能的 Cortex-A725 CPU 和更新版 Cortex-A520 CPU。這為 AI 和其他實際場景運算工作負載提供出色的效能和效率。
圖:Arm 終端產品運算子系統涵蓋哪些要素?
最新的 CoreLink 互連實現了 Arm 終端產品運算子系統的系統整合和擴展。整合的系統級快取記憶體(SLC)透過減少 DRAM 頻寬和存取來實現更出色的系統能源效率。系統記憶體管理單元(SMMU)透過第二階段轉換加強安全性,以便支援如安卓虛擬化框架(AVF)等虛擬化安全框架。
憑藉基於第五代 GPU 架構、運用於旗艦智慧手機所設計的 Arm Immortalis-G925,Arm 終端產品運算子系統實現了驚人的圖形和主機級別的遊戲效能。透過強化的效能和能源效率,使用者可以在行動裝置上享受更長時間、更沉浸的遊戲體驗。
Arm 終端產品運算子系統將成為第一代採用三奈米工藝節點的安卓 SoC 的一部分,從而在晶片中實現出色的功耗、效能和面積(PPA)。做為終端產品運算子系統的一部分,Arm 的實體實作能夠全面釋放三奈米工藝技術的潛力,為高階平台充分發揮 PPA 優勢,並為我們的合作夥伴打造創建晶片的最快途徑。
我們攜手領先的晶圓製造合作夥伴,協同設計並提供 CPU 和 GPU 實體實作,其中包括生產就緒的 Cortex-X925 CPU 以及 Immortalis-G925 三奈米工藝的實體實作。這將有助於我們的合作夥伴在三奈米工藝上取得 PPA 優勢,同時通過生產就緒的晶片解決方案來縮短晶片的開發與部署時間。此外,我們的合作夥伴能夠靈活地使用 Arm 終端產品運算子系統來建構特定市場、具差異化特色的 CPU 叢集和 GPU。
突破運算和 AI 效能的極限
終端產品運算子系統是 Arm 目前運行於安卓系統速度最快的平台,與 2023 年發表的 Arm 全面運算解決方案(TCS23)平台相比,在關鍵基準和一般運算場景方面獲得顯著改進。其中包括:
- 透過 Geekbench 6 單核分數測量可知,受惠於新的 Cortex-X925,峰值效能提高 36%;
- 在前十大應用中,五款應用的平均啟動時間加快了 33%,不僅提高了生產力,也帶來了流暢的行動體驗;
- 通過 Speedometer 2.1 流覽器基準測量時,網頁流覽速度加快了 60%;
- 在包括光線追蹤和可變速率著色(VRS)基準等七項圖形基準中,峰值圖形效能平均提高 30%。
圖:Arm 終端產品運算子系統的一些效能優勢
Arm 終端產品運算子系統平台提供由 AI 驅動的消費性裝置體驗。今年稍早,我們展示了大型語言模型(LLM)如何在行動裝置上的 Arm CPU 進行本地運行。借助終端產品運算子系統,LLM 將得以在 Arm CPU 上更好地運行,帶來更快的回應速度。當運行 Llama 3 LLM 和 Phi-3 LLM時,該平台可將詞元(Token)首次回應時間分別縮短 42% 以及 46%。
圖:通過 Arm 終端 CSS 在 Arm CPU 上運行 LLM
此外,受惠於新 Arm CPU 和 GPU 所取得的技術進展,在廣泛的通用 AI 網路上,Arm 終端產品運算子系統的 AI 推理效能獲得了顯著的提升。例如,採用 Cortex-X925 時,推理速度加快 59%;採用 Immortalis-G925 時,AI 推理速度加快 36%。此外,透過在終端產品運算子系統 的 CPU 叢集配置中利用一顆額外的 Cortex-X925 CPU,我們觀察到在 17 個主流網路中,針對 int8 和 fp16 資料類型的 AI 推理效能提高了驚人的 2.7 倍。這些在 AI 推理方面的改進,可在一系列 AI 場景中實現無縫順暢的使用者體驗。
圖:Arm 終端 CSS 提升 AI 推理
Arm 終端產品運算子系統在運算攝影和 AI 攝影鏡頭等 AI 場景中的表現尤其優異。要想拍攝出美侖美奐且具有逼真的焦外成像效果(讓背景模糊並聚焦所選主體)的照片和影片並非易事。AI 攝影鏡頭的焦外成像管線由深度估算、分割、去背和混合等多個階段組成,可生成高品質的影像結果。與 TCS23 相比,通過 CPU 上針對焦外成像工作負載的 AI 處理,終端產品運算子系統的焦外成像效能提升了 24%。這意味著使用者可以在不影響電池續航時間的前提下,在照片和影片上獲得更快、更順暢的焦外成像效果。
圖:通過 Arm 終端產品運算子系統提升 AI 攝影鏡頭效能
此外,通過軟體和工具的結合,Arm 終端產品運算子系統的效能與功耗得以獲得進一步優化。Arm 新推出的 Kleidi 包含了經高度優化、與機器學習(ML)軟體核心整合的 KleidiAI,能讓開發人員在通過高度優化的生成式 AI 框架運行 AI 工作負載時,全面釋放 Arm CPU 的潛力。這意味著開發人員能夠運用於各類裝置,基於最可能達到的效能,快速建構 AI 應用。
為了獲得更具沉浸感和更長時間的遊戲體驗,Arm 終端產品運算子系統實現了兩位元數的效能和能效提升,其中包括在一系列熱門的手遊中,平均以每秒 120 幀的速度運行時,在相同功耗下可帶來 37% 的平均效能提升,同時 GPU 功耗降低 30%。
可擴展的效能橫跨各類消費性裝置市場
Arm 致力於讓每個人都能享有 AI,並透過可應用在各類和各種不同外觀設計的消費性裝置的終端產品運算子系統,不斷提升效能和效率。
Arm 終端產品運算子系統可擴展應用至市面上最高效能的消費性裝置,包括新一代 AI PC。其中的 Cortex-X925 與 Cortex-X4 CPU 相比,其 TOPS 提高 50%。終端產品運算子系統為 PC 市場提供專用的可擴展平台。該平台採用 Cortex-X925 以提供一流的單執行緒效能,並透過近期更新的 DSU-120(在單個 CPU 叢集內提供多達 14 個 CPU 核心)提供最佳的效能可擴展性。除了 SVE2,更多的 Armv9 架構的功能,包括已在行動生態系驗證的安全性技術,如指標驗證(PAC)、分支目標識別(BTI) 和記憶體標籤擴充(MTE) 等,也將導入 PC 市場。
透過終端產品運算子系統,Arm 可為消費性裝置市場的各類效能和成本需求提供可獲取的 AI 技術。Cortex-A725 是實現高能效 AI 輸送量的主要處理器,在對成本更敏感的大眾消費電子技術市場領域,它是 AI 處理的主力和主要開發人員目標。例如,我們曾在一個虛擬助理展示中,呈現了在搭載三核 Cortex-A700 系列 CPU 核心的現有安卓智慧手機上,運行 Llama2-7B 和 Phi-3-mini(Phi-3 3.8B)LLM 的效能。同時,經優化面積的 Cortex-A725 可在廣泛的消費電子技術領域中,以高面積效率實現生成式 AI 工作負載的部署。
消費電子技術的 AI 基礎
Arm 終端產品運算子系統是為各類消費性裝置打造新一代 AI 體驗的專用平台。終端產品運算子系統是 Arm 針對安卓系統速度最快的運算平台,這將使得使用者能夠在其行動裝置上獲得前所未有的安卓體驗。該平台的 PPA 優勢透過實體實作得以達成,協助我們的晶片合作夥伴縮短產品上市時間並順暢部署。終端產品運算子系統的可擴展效能,有助於在各種類型、不同外觀設計的裝置的所有成本點上釋放 AI 效能,使得人人都能享有 AI。
Arm 終端產品運算子系統使我們的生態系能夠實現更多突破,無論是釋放更多效能、實現更多 AI 功能和應用體驗,還是打造更先進的晶片,Arm 平台是這一切的基礎。憑藉終端產品運算子系統,Arm 為當前和未來的 AI 體驗,建構終端產品運算的未來。
原文連結: Arm CSS for Client: The Compute Platform for AI-powered Consumer Experiences