Arm CSS for Client: AIに最適化されたユーザー体験を追求する演算プラットフォーム
著:Kinjal Dave、Armクライアント事業部門 製品管理担当シニアディレクター
※本資料は、英Armが英国時間2024年5月29日に公開したブログ記事の抄訳です。
AIはコンシューマー機器を変革し、生産性、創造性、エンターテイメント体験に革命をもたらしています。自動化、没入感、パーソナリゼーションが進み、開発者にもエンドユーザーにもさまざまな機会が生まれています。AIが進歩を続けるとともに、オンデバイスの生成AIがモバイルシステムオンチップ(SoC)の進化も後押ししています。
Arm Total Computeソリューションの経験値に基づき、Armは全く新しいコンシューマー機器向けコンピュートサブシステム「Arm Compute Subsystems (CSS) for Client」を発表しました。これはAIに最適化されたエクスペリエンスを追求する演算プラットフォームであり、幅広いコンシューマー機器にわたって性能、効率性、拡張性を格段に高めます。
CSS for Clientに含まれるのは、最新のArmv9.2 Cortex CPUクラスター、Arm Immortalis GPU、Mali GPU、CoreLinkインターコネクトシステムIP、そして主要ファウンドリーの3nmプロセスノードを用いる量産に対応したCPUとGPUの物理実装です。CSS for Clientはパートナー各社にシリコン量産への最短経路を提供します。Armのパートナーは物理実装によって最先端の3nmプロセスの利点をすべて活用しつつ、柔軟にシリコン設計をカスタマイズできます。
Arm CSS for Clientの詳細
CSS for Clientの中核は、最高性能のArm Cortex-X925 CPU、高効率のArm Cortex-A725 CPU、刷新されたArm Cortex-A520 CPUを統合した最新のArmv9.2 CPUクラスターです。これにより、AIや他の実世界の演算ワークロードにかつてない性能と効率性を提供します。
CSS for Clientに含まれるもの
CSS for Clientのシステム統合と拡張は、最新のCorelinkシステムインターコネクトによって実現されます。統合されたシステムレベルキャッシュ(SLC)はDRAMの帯域幅とアクセスを削減し、最高のシステム電力効率を実現します。システムメモリ管理ユニット(SMMU)はStage-2変換によってAndroid仮想化フレームワーク(AVF)などの仮想セキュリティフレームワークをサポートし、セキュリティを強化します。
CSS for Clientは、第5世代のGPUアーキテクチャを採用したImmortalis-G925によりフラグシップスマートフォンで鮮やかなグラフィックスとコンソールレベルのゲーム性能を実現します。高いパフォーマンスと電力効率により、モバイルで迫力あるゲームを楽しめる時間も長くなります。
CSS for Clientは3nmプロセスノードでの第1世代のAndroid SoCに組み込まれ、クラス最高のPPA(消費電力、性能、面積)をシリコンで実現します。CSS for Clientの一環として、Armの物理実装は3nmプロセスの可能性を生かし、プレミアムプラットフォームに優れたPPAの利点を提供するとともに、パートナー各社のシリコン生産までの時間を短縮します。
Armは主要ファウンドリーパートナーと協力してCPUとGPUの物理実装を共同設計し、提供しています。これには3nmですぐにテープアウトできるCortex-X925 CPUとImmortalis-G925の物理実装が含まれます。これによりパートナー各社は3nmプロセスでPPAのメリットを最大限に活用するとともに、量産対応のシリコンソリューションでシリコン開発と導入にかかる時間を短縮できます。またCSS for Clientを使用して、各市場向けに差別化したCPUクラスターやGPUを柔軟に設計することも可能です。
演算とAIのパフォーマンスの限界を押し広げる
CSS for Clientは、Arm最速のAndroid向けプラットフォームとして、主要ベンチマークと一般的な演算用途でTCS23プラットフォームを大幅に上回ります。以下の例をご覧ください。
- 新しいCortex-X925 CPUにより、Geekbench 6シングルコアスコアで測定したピーク性能が36%向上
- アプリケーション上位10種類のうち5種類でアプリケーションの起動時間を平均33%短縮し、生産性向上、モバイル機器での滑らかな動作を確保
- Speedometer 2.1ブラウザベンチマークでの測定値でウェブ閲覧を60%高速化
- レイトレーシング、可変レートシェーディング(VRS)など7つのグラフィックスベンチマークでピークグラフィックス性能を平均30%向上
CSS for Clientによるパフォーマンス上の利点
CSS for Clientは、AIに最適化されたコンシューマー機器を支えるプラットフォームです。今年前半、Armはモバイル機器のArm CPUで大規模言語モデル(LLM)をローカル実行できることを実証しました。CSS for Clientを使えば、Arm CPUでLLMをさらに高速処理し、速やかな反応を得ることができます。CSS for Clientは、Llama3 LLMの実行においてはTTFTを42%、Phi3 LLMでは46%高速化します。
CSS for ClientによるArm CPU上でのLLMの実行
またCSS for Clientは、最新のArm CPUとGPUにより、多くの一般的なAIネットワークでAI推論の性能を大幅に引き上げます。たとえばCortex-X925は推論時間を59%、Immortalis-G925は36%高速化します。さらにCSS for ClientのCPUクラスター構成にCortex-X925 CPUを追加すれば、int8とfp16のデータ型で17の主流ネットワークにわたるAI推論の性能が2.7倍にも向上します。AI推論におけるこのような改善は、さまざまなAIの用途でシームレスなユーザーエクスペリエンスを可能にします。
CSS for ClientによるAI推論の改善
このようにCSS for Clientが威力を発揮するユースケースの1つがコンピュテーショナルフォトグラフィーとAIカメラです。リアルなボケ効果で背景をぼかし、選んだ被写体にピントを合わせた美しい写真や動画を撮影することは複雑な作業です。クオリティの高い結果を生成するAIカメラのボケ味を作る構造は、深度推定、セグメンテーション、マッティング、ブレンディングなど複数のステージで構成されます。CSS for Clientは、ボケに関するワークロードのAI処理をCPUで実行するためボケの性能がTCS23を24%上回ります。つまりユーザーはバッテリー寿命を損なうことなく、写真や動画でより速くスムーズなボケ効果を得られます。
CSS for ClientによるAIカメラの改善
Client for CSSではソフトウェアとツールの併用により、さらなる性能と消費電力の最適化も可能です。KleidiAI(高度に最適化された機械学習 [ML] カーネル)を使用したArmの新しいKleidiライブラリの導入により、開発者はArm CPUを最大限に活用し、高度に最適化された生成AIフレームワークでAIワークロードを実行できます。つまり、開発者がさまざまなデバイスで最高のパフォーマンスを確保し、迅速にAIベースのアプリケーションを作成できるのです。
CSS for Clientは、高度なゲームを長時間プレイできるよう2桁の性能と効率性を向上させます。同じ消費電力で性能は平均37%向上、GPU消費電力は30%削減され、人気モバイルゲームを平均120フレーム/秒(fps)でプレイ可能です。
あらゆるコンシューマー機器に対応する性能
ArmはCSS for Clientを通じて性能と効率性を引き上げ、幅広いコンシューマー機器とサイズに対応することで、すべての人にAIを届けたいと考えています。
CSS for Clientは市場で最も高い性能を必要とするコンシューマー機器にも使用可能です。たとえばCortex-X925を搭載した次世代のAI PCはArm Cortex-X4 CPUのTOPSを50%も上回ります。CSS for ClientはPC市場を想定したスケーラブルなプラットフォームです。CSS for ClientのCortex-X925は、1つのCPUクラスターで最大14個のCPUコアに対応する最新のDSU-120により、クラス最高のシングルスレッド性能と性能拡張性を備えています。PC市場向けのArmv9アーキテクチャの特長はSVE2のほかにもあります。たとえばポインタ認証(PAC)、分岐ターゲット識別(BTI)、メモリタギング拡張(MTE)はセキュリティ技術としてすでにモバイルエコシステムで実証されています。
ArmはCSS for Clientにより、あらゆる性能レベルとコストのコンシューマー機器でAIを利用可能にします。Cortex-A725は高い電力効率でAIを処理する主要プロセッサーであり、コスト重視の量産型コンシューマー機器でAIを処理する主力製品として開発者に人気です。たとえばこの仮想アシスタントのデモは、Cortex-A700シリーズのCPUコアを3個使用した既存のAndroidスマートフォンでLlama2-7BとPhi3 3.8B LLMを実行する際の性能を示しています。最後に、実装面積を最適化したCortex-A725では、幅広いコンシューマー機器に高い面積効率で生成AIワークロードを導入できます。
コンシューマーテクノロジーのAIプラットフォーム
CSS for Clientは、多様なコンシューマー機器で次世代のAIエクスペリエンスを実現するためのプラットフォームです。このArm最速のAndroid向け演算プラットフォームでAndroidモバイル機器のユーザーはこれまでにない体験をすることが可能です。物理実装により、シリコンパートナーは短い製品開発期間でスムーズにプラットフォームを導入し、優れたPPAを活用できます。CSS for Clientのスケーラブルな性能は「あらゆる人のためのAI」として、さまざまなデバイス、サイズ、コストでAIのパフォーマンスを発揮します。
CSS for Clientは、さらなる性能向上、AI活用、アプリケーションエクスペリエンス、高度なシリコンなど、あらゆる分野でArmのエコシステムに可能性を与えるものです。Armはこのプラットフォームを通じ、これからのAIベースのエクスペリエンスを追求したコンシューマーコンピューティングの未来を構築していきます。
Armについて
Armは、業界最高の性能と電力効率に優れたコンピューティング・プラットフォームであり、コネクテッドな世界における人口の100%に貢献する比類のないスケールを備えています。Armは、演算に対する飽くなき需要に応えるため、世界をリードするテクノロジー企業に先進的なソリューションを提供し、各社がAIによるかつてない体験や能力を解き放つことができるよう支援しています。世界最大のコンピューティング・エコシステムと2,000万人のソフトウェア開発者とともに、私たちはArm上で築くAIの未来を形作っていきます。
全ての情報は現状のまま提供されており、内容について表明および保証を行うものではありません。本資料は、内容を改変せず、出典を明記した上で自由に共有いただけます。ArmはArm Limited(またはその子会社や関連会社)の登録商標です。その他のブランドあるいは製品名は全て、それぞれの権利者の所有物です。©1995-2024 Arm Limited.