全新的 Armv9 CPU 加速 AI 在行動裝置等領域的發展
June 28, 2024
作者:Arm 終端產品事業部 GPU 產品管理總監 Saurabh Pradhan
全新的 Armv9 CPU 透過先進的運算效能、效率和功能顯著提升次世代 AI 體驗。
當今行動裝置上的大多數人工智慧(AI) 工作負載均可在 Arm CPU 上運行。在智慧手機領域,基於 Armv9 CPU 技術建構的 AI 旗艦智慧手機處於技術領先地位,其中包括搭載 MediaTek 天璣 9300 晶片的 vivo X100 和 X100 Pro 智慧手機、三星 Galaxy S24 以及 Google Pixel 8,為 AI 創新提供了前所未有的機會。
隨著 AI 工作負載的運算強度及複雜度持續增長,Arm 最新的 Armv9.2 CPU 叢集帶來更強效能、更高效率,以及更多功能,為新一代 AI 奠定扎實基礎。這些優勢可擴展到包括旗艦智慧手機、AI PC,以及主流行動裝置、XR 和可穿戴裝置等在內的各類消費性裝置,彰顯了我們致力於實現無處不在的 AI 所做的努力。
新增至 Armv9 CPU 組合的新品包括具備超強效能的 Arm Cortex-X925 CPU 和可持續提供出色效能的 Arm Cortex-A725 CPU,而更新後的 Arm Cortex-A520 可為低強度工作負載提供更卓越的能效表現。同時,我們也更新了 DynamIQ Shared Unit(DSU-120),進而在 Armv9.2 CPU 叢集配置中,降低功耗和縮小面積。這些產品被整合至 Arm 迄今為止針對安卓系統速度最快的運算平台 - 全新的 Arm 終端產品運算子系統(CSS)。
圖:Armv9 CPU 系列的新產品及更新
Cortex-X925 實現了最顯著的 Cortex-X 效能提升
Cortex-X925(內部代號為 Blackhawk)與前代的 Cortex-X 產品相比,實現了最高的年度效能提升,重新定義了運算效能的發展軌跡。Cortex-X925 的單執行緒(峰值)效能提高了 36%(與 2023 年高階安卓手機上運行 Geekbench 6.2 相比),並且其 AI 效能提升了 46%(與前代 Cortex-X4 CPU 上的 Phi-3 詞元首次回應時間相比)。
圖:Cortex-X925 效能提升
Cortex-X925 的功耗效能配置代表著它能在關鍵時刻提供峰值效能。這有助於提高跨應用、生成式 AI 工作負載、網頁流覽、攝影鏡頭後處理、影片錄製和 AAA 遊戲的回應能力,進而帶來更優異的使用者體驗。
這些效能提升受惠於 Cortex-X925 出眾的效能基礎及其開創性的新微架構。Cortex-X925 通過經優化的三奈米工藝,輔以卓越的子系統和封裝,使得新一代消費性裝置的效能分數可提高 30% 以上。包括高達 3MB 的私有 L2 快取記憶體在內的微架構改進,提供了更強的 CPU 叢集可配置性,讓各類消費性裝置的創新成為可能。
做為 Arm 終端產品運算子系統的一部分,我們協同設計並提供 CPU 實體實作。我們與領先的晶圓製造合作夥伴攜手,實現了生產就緒的 Cortex-X925 三奈米工藝的實體實作,協助我們的合作夥伴能夠在三奈米工藝上充分發揮功耗、效能和面積(PPA) 優勢,同時透過大批量生產就緒的晶片解決方案來縮短晶片的開發與部署進程。
Cortex-A725 持續提供出色效能
Arm Cortex-A700 系列 CPU 的出色效能效率一脈相承,Cortex-A725 也不例外。作為 CPU 工作負載的主力,我們的工程和設計團隊就 Cortex-A725 進行了特定更新,著力於需要持續出色效能的關鍵 AI 和遊戲場景。與 Cortex-A720 相比,Cortex-A725 的效能效率提升了 35%,能效提升了 25%。
圖:Cortex-A725 效能和效率提升
Cortex-A725 的效能效率提升同樣受惠於其微架構的改進。和 Cortex-X925 一樣,透過 Arm 先進的實體實作,我們在三奈米工藝上優化了 Cortex-A725 的實現。我們還可為主流消費技術市場提供面積優化。
Cortex-A520 和 DSU-120 的更新
Cortex-A520 已針對 Arm 終端產品運算子系統進行更新,進而提供更為出色的效率,與 2023 Arm 全面運算解決方案(TCS23)中的 Cortex-A520 相比,其效率提升了 15%。Cortex-A520 的更新受惠於更新的實現與先進的三奈米實體實作。
圖:更新後的 Cortex-A520
做為全新的 Arm 終端產品運算子系統的一部分,DSU-120 已針對新一代場景和消費性裝置體驗進行了強化。其中包括新的效能和效率功能、新的低功耗模式和運用於主流消費性裝置的強化,並保留了為高效能場景擴展到 14 個核心的選項。因此,典型工作負載的功耗顯著降低 50%,並且整個 CPU 叢集的緩存未命中功耗降低 60%,進而減少漏電並延長裝置的電池壽命。新的低功耗模式(例如 half slice power down 和 quick nap)和強化的功能支援大量低強度和高強度的 AI 工作負載,包括生物特徵識別、語音轉文本、AI 智慧攝影鏡頭、內容設計和基於機器學習(ML) 的 AAA 遊戲。
圖:DSU-120 更新和提升
Arm 效能最強、效率最高、用途最廣泛的 CPU 叢集
這些新推出和更新後的 CPU 構成了 Arm CPU 叢集配置,為廣泛的消費性裝置提供前所未有的效能、效率和廣泛用途。概括地說,與採用上一代 Cortex-X4 的 CPU 叢集相比,新的 CPU 叢集的 AI 效能提高了 46%,能實現更高的回應效能和持續的輸送量。與 TCS23 CPU 叢集相比,它使關鍵使用者體驗指標(結合效能與功耗)提高 30%,進而加快應用存取和網頁流覽速度,提升 AAA 遊戲體驗,並延長電池使用壽命。
最新的 Arm CPU 叢集還可為各類的消費性裝置提供出色的擴展能力。例如,它為 PC 和筆記型電腦提供一流的效能,與當前市售的 PC 和筆記型電腦裝置相比,效能提高了 25%。同時,與 TCS23 中的 DSU-120 相比,功耗和面積均降低,加上透過 Cortex-A725 和 Cortex-A520 帶來的面積和功耗優化,為主流裝置提供了靈活的 CPU 叢集配置組合。這有助於在各類低成本的消費性裝置上提供優異效能和 AI 功能,確保日常裝置使用者能夠獲得高階的 AI 體驗。
Armv9 CPU 運用於新一代 AI 體驗
新的 Armv9.2 CPU 叢集為安卓智慧手機、PC 和筆記型電腦等裝置提供出色的效能與使用者體驗。該叢集提供一整套實際場景的改進,叢集中各個 CPU 元件均涵蓋廣泛的實際場景和工作負載。例如,Cortex-X925 可處理應用啟動和網頁流覽的「突發」工作負載,Cortex-A725 可提供常見 AI 工作負載和 AAA 遊戲所需的持續效能,Cortex-A520 的高效率則非常適合輕量型媒體、閒置及幕後工作。所有這些強化的實際場景體驗都可擴展到各類消費技術領域,新推出的 Armv9 CPU 為主流裝置和日常使用者帶來了更高的效能和更強大的 AI 功能,進而使關鍵使用者體驗指標提高 30%。
隨著使用者在其裝置上花費的時間不斷增加,並期望獲得更高階的體驗,消費者對技術的需求永無止境。無論是更快的網頁流覽和應用存取速度,還是強化的 AAA 遊戲與生成式 AI 工作負載,新的 Armv9 CPU 透過先進的運算功能提升各類體驗,進而定義消費技術的未來。
原文來源:New Armv9 CPUs for Accelerating AI on Mobile and Beyond