Arm対応の最新版Llama 3.2 LLMにより、あらゆる環境でAI推論を高速化・拡張

September 26, 2024
  • Arm CPU 上で Meta の最新版 Llama 3.2 リリースを実行することで、クラウドからエッジまでパフォーマンスを大幅に向上
  • MetaとArm のコラボレーションにより、パーソナライズされたオンデバイス・レコメンデーションやルーチンタスクの自動化など、各種ユースケースでイノベーションを加速
  • Arm の 10 年に及ぶ AI 投資とオープンソースとの大規模なコラボレーションを通じて、Arm の演算プラットフォーム上で 1B~90B の最新版 LLM がシームレスに実現

著:イアン・ブラット(Ian Bratt)、MLテクノロジー担当バイスプレジデント兼フェロー

AI が急速な進化を続ける中、最新版の大規模言語モデル(LLM)は定期的に登場しています。クラウドからエッジに至るあらゆる環境で実行される LLM は、AI の可能性と機会を最大限に引き出す上で必要なものですが、一方で演算リソースとエネルギーの膨大な需要を招いてもいます。こうした課題に対するソリューションを見出すため、エコシステムは一丸となり、幅広い AI 推論ワークロードを大規模に実現しつつ、かつてない高速 AI 体験をいち早くユーザー提供できるよう、効率性を高めた最新版のオープンソース LLM を公開しています。

ArmとMetaのコラボレーションを通じて最新版 Llama 3.2 LLM を Arm CPU に対応させることで、私たちはこうした課題の解決策として、オープンソースのイノベーションと Arm の演算プラットフォームの強力な組み合わせを提案しています。Arm の継続的な投資と今回のような最新版 LLMとの協業により、エコシステムは Arm CPU 上で AI を実行するメリットを自動的に得られるため、AI 推論ワークロードを取り扱う開発者にとって、Arm は選択すべきプラットフォームとなっています。

クラウドからエッジまでAIパフォーマンスを加速

Llama 3.2 1B/3B など、テキストベースの基本的な生成 AI ワークロードに対応する小規模 LLMの利用は、大規模な AI 推論を実現する上で不可欠です。Arm CPU に最適化されたカーネルを通じて、Arm ベースのモバイルデバイスで最新版 Llama 3.2 3B LLM を実行することで、プロンプト処理で5倍、トークン生成では3倍の向上が実現しており、生成フェーズでは 19.92トークン/秒を達成しています。これにより、デバイス上で AI ワークロードを処理する際のレイテンシーが抑えられ、総合的なユーザーエクスペリエンスは著しく向上します。また、エッジでの AI 処理を拡大することで、クラウドを往来するデータによる消費電力を抑え、エネルギーとコストを低減できます。

エッジでの小規模モデルの実行に加えて、クラウド環境でも Llama 3.2 11B/90B などの大規模モデルを実行できるようになりました。この 11B/90B モデルは、テキストと画像を生成するクラウド上のCPUベースの推論ワークロードに最適であることが、Arm Neoverse V2 でのデータで示されています。Arm ベースのAWS Graviton4 で 11B の画像/テキストモデルを実行することで、生成フェーズでは29.3 トークン/秒を達成できます。この数字は、人間の読書速度である約5トークン/秒を大幅に上回っています。

オープンソースのイノベーションとエコシステムのコラボレーションにより、AI は迅速に拡大

Llama 3.2 などの最新の LLM をオープンに公開することは重要です。オープンソースのイノベーションは、圧倒的なスピードで進化しています。従来のリリースでは、オープンソースのコミュニティを通じて、最新版 LLM は 24 時間未満で Arm 環境での運用を実現しました。

私たちは Arm Kleidi を通じてソフトウェアコミュニティをさらに強化しており、このように最適化された CPU パフォーマンスを AI テクノロジースタック全体で活用できるよう取り組んでいます。Kleidi は、アプリケーション開発者に統合作業を強いることなく、任意の AI フレームワーク上で Arm Cortex および Neoverse CPU の AI 機能とパフォーマンスを解き放ちます。

最近の Kleidi と PyTorch との統合機能や現在進行中の ExecuTorch との統合機能により、私たちはクラウドからエッジに至る Arm CPU 環境を対象に、シームレスな AI パフォーマンスのメリットを開発者に提供しています。KleidiとPyTorch との統合により、Armベースの AWS Gravitonプロセッサーで Llama 3 LLM を実行した際の最初のトークンまでの時間は2.5倍高速化しています。

一方のエッジでは、Kleidi AI ライブラリを使用することで、Llama 3 および llama.cpp と新型 Arm Cortex-X925 CPU による最初のトークンまでの時間は、リファレンス実装との比較で 190% 高速化しています。

AI の未来を構築

Arm の演算プラットフォームの柔軟性、広範性、AI 機能と、Meta などの業界リーダーの専門知識を組み合わせることで、AI の新たな機会は大規模に解放されます。ユーザーの位置情報、スケジュール、嗜好を理解し、ユーザーのためにタスクを実行するオンデバイスの LLM でも、業務の生産性を向上し、より高価値のタスクに専念できるようにするエンタープライズのユースケースでも、Arm テクノロジーの統合は、デバイスが単なるコマンド&コントロールツールではなく、プロアクティブなアシスタントとしてユーザーの全体的なエクスペリエンスを強化してくれる未来への道を切り開いています。

最新版 Llama 3.2 LLM による、Arm CPU 上でのAIパフォーマンスの向上は目覚ましく、こうしたオープンなコラボレーションは、可能な限り持続可能な方法で、あらゆる環境のAIイノベーションを実現する上でベストな方法だと私たちは考えます。最新版 LLM、オープンソースのコミュニティ、Arm の演算プラットフォームを通じ、私たちはAIの未来を構築しており、2025 年には 1,000 億個を超える Arm ベースデバイスが AI 対応になる予定です。

 

参考資料

モバイルとエッジのエコシステム開発者向けの Llama 3.2 は、Arm Cortex CPU ベースデバイスで効率的に実行されます。開発者向けのリソースについては、こちらのドキュメントをご参照ください。

Arm Neoverse CPU 上のクラウド環境で Llama 3.2 を実行する、すべての主要クラウドサービスプロバイダーを通じて開発者は Arm を利用できます。開始時にはこちらのドキュメントをご参照ください。

Armについて

Armは、業界最高の性能と電力効率に優れたコンピューティング・プラットフォームであり、コネクテッドな世界における人口の100%に貢献する比類のないスケールを備えています。Armは、演算に対する飽くなき需要に応えるため、世界をリードするテクノロジー企業に先進的なソリューションを提供し、各社がAIによるかつてない体験や能力を解き放つことができるよう支援しています。世界最大のコンピューティング・エコシステムと2,000万人のソフトウェア開発者とともに、私たちはArm上で築くAIの未来を形作っていきます。

全ての情報は現状のまま提供されており、内容について表明および保証を行うものではありません。本資料は、内容を改変せず、出典を明記した上で自由に共有いただけます。ArmはArm Limited(またはその子会社や関連会社)の登録商標です。その他のブランドあるいは製品名は全て、それぞれの権利者の所有物です。©1995-2024 Arm Limited.