新たな競争の時代の幕開けです。本日、IntelのデビューモデルArc A770とA750 GPUがついに公開され、長らく予告されていたコンシューマー向けディスクリートグラフィックカード市場への参入が正式に発表されました。NVIDIAとAMDは要注意です。Chipzillaは、新Xe HPG(ハイパフォーマンスゲーミング)GPUアーキテクチャを搭載し、今まさにその競争に参入しています。
IntelはArcのデビューに際し、異例の(しかし戦略的に賢明な)アプローチを採用しました。まずは手頃な価格のポータブルノートPC向けにArc 3グラフィックスを投入し、その後、同様に低価格のArc A380デスクトップGPUを今夏に中国で導入しました。これにより、IntelはデスクトップPCでNvidiaやAMDと熾烈な競争を繰り広げるのではなく、ノートPCとソフトウェアサポートにおける確固たる強みを活かすことができ、待望のドライバーの改良に数ヶ月を費やすことができました。
Arc 3ノートPC向けGPUの発表とIntelのキラー機能については、別の記事で取り上げ、この新しいタイプのノートPCに一般ユーザーが何を期待すべきかを解説しました。そして今回、Arc 7デスクトップグラフィックカードのパフォーマンスについても明らかになりました。(ネタバレ注意:PCIe Resizable BARを有効にしていない場合は、動作がカクカクすることもあれば、パワフルに動作することもあれば、文字通りカクカクすることもあります。)
しかし、この記事の主旨はそこではありません。様々な発表の一環として、Intelフェローのトム・ピーターソン氏が報道陣に対し、これらのArc「Alchemist」グラフィックスカードの基盤となるXe HPGアーキテクチャの概要を説明し、Intelのディスクリートグラフィックスへの野望を支える基盤を垣間見せてくれました。
そこで、NvidiaのAmpereアーキテクチャやAMDのRDNA 2アーキテクチャと同様に、Intel ArcのXe HPGチップの内部構造について、簡単に技術的に解説します。NvidiaとAMDが設計に異なる技術や用語を使用しているのと同様に、IntelのArcチップも独自の概念(クロック速度に関する新しい考え方など、説明が必要な部分もあります)を採用しています。そのため、Arcを競合GPUアーキテクチャと比較するのは困難です。IntelはROPやTMUといった一般的な用語さえ使用していません。しかし、この記事を読み終える頃には、Xe HPGの仕組みをしっかりと理解できるはずです。それでは、詳しく見ていきましょう。

インテル
Intelにとって、Xe HPGの「レンダースライス」はあらゆるArc GPUのバックボーンを構成しています。IntelのノートPCおよびデスクトップ向けArc製品は、様々な市場ニーズに合わせてスケールアップまたはスケールダウンできますが、これらのレンダースライスこそがArcの中核を成すものであり、専用のレイトレーシングユニット、ラスタライザー、ジオメトリブロック、そしてArcの基本的な構成要素であるXeコア自体が含まれています。Xe XPGは、フラッグシップモデルであるArc A770では最大8つのレンダースライスまで拡張可能です。
各レンダースライスには、4つのXeコアと4つのレイトレーシングユニットに加え、最新のGPUの動作に必要なその他のすべてのビットが含まれています。これらのレンダースライスはDirectX 12 Ultimateに完全準拠しており、Intel Arc GPUはレイトレーシング、可変レートシェーディング、メッシュシェーディング、そしてこの規格に関連するその他のすべての機能を処理できます。

インテル
Xeコア自体を詳しく見てみましょう。各Xeコア(繰り返しますが、レンダースライスごとに4つあります)は、3つの主要ビットで構成されています。1つは、より従来的なラスタライズタスクを処理する16個の256ビット「XVE」ベクターエンジン、もう1つは機械学習タスクを処理する16個の1024ビット「XMX」マトリックスエンジン(NvidiaのライバルであるRTX GPUのテンソルコアに相当)、そして192KBの共有L1/SLMキャッシュです。このキャッシュは、コンピューティングワークロード中のタスクや、ゲーム中のシェーダーやテクスチャを保持するために使用できます。

インテル
PCゲーミング業界の大手企業は、レイトレーシングがグラフィックスの未来であると確信しているかもしれません。例えば、各Xe Coreには、シェーダーが不規則に跳ね返るレイトレーシングデータをより効率的に処理できるように設計された専用のスレッドソーティングユニットが搭載されています。しかし、今のところは従来のレンダリングが主流です。各Xe Vector Engineには、従来のシェーディングタスクを処理するための専用の浮動小数点(FP)実行ポートと、整数ベースのタスクを同時に処理できる共有のINT/EMポートが搭載されています。
Nvidiaは、RTX 20シリーズの「Turing」アーキテクチャで、整数タスクがFP32パイプラインを圧迫するのを防ぐため、同時実行可能なFP/INTパイプラインを導入しました。これはそれ以来、標準となっています。「Nvidiaが実際のゲームの動作を調査したところ、浮動小数点命令100回ごとに、平均36回、最大50回もの非浮動小数点命令も処理され、処理が滞っていることがわかりました」と、2018年に私たちは書いています。「新しい整数パイプラインは、これらの追加命令をFP32パイプラインとは別に、 同時に処理します 。2つのタスクを同時に実行することで、大幅な速度向上が実現します。」

インテル
Intelの専用「XMX」マトリックスエンジンは、各Xe Coreのベクトルエンジンに接続します。これらは、機械学習タスクを大幅に高速化するように設計されたNVIDIAのRTXテンソルコアとほぼ同等です。これらは、NVIDIAの誇るDLSSアップサンプリングに対抗するIntelのXeSSの潜在能力を解き放つ要素であり、Hyper ComputeやIntelの新しいArc Controlコマンドセンターの仮想カメラ機能といった特別な機能も実現しています。(これらのコンシューマーレベルの機能の詳細については、ArcノートPC向けGPUに関する記事をご覧ください。)

インテル
互換性のあるソフトウェア (XeSS を使用したゲームや Hyper Compute をサポートするアプリなど) によってタップされると、XMX コアの 4 ディープ シストリック アレイは、INT8 推論でクロックあたり最大 256 回の乗算累算 (MAC) 演算を計算できます。これは、オンボードの DP4a ハードウェアを搭載した最新の GPU が提供する 64 回の演算/クロックや、古い GPU でサポートされていた 16 回の演算/クロックに比べて大幅に増加しています。
IntelのXeSSは、XMXコアを搭載していない競合のNvidiaおよびAMDグラフィックカードで動作するためのフォールバックモードをサポートしており、代わりにDP4aハードウェアをデフォルトとして使用できます。この図は、XeSSがXMXハードウェアを搭載したArc GPUで非常に高速に動作するとIntelが主張する理由をよく表しています。

インテル
各Xe Coreには合計16個のベクターエンジンとマトリックスエンジンが搭載されており、それぞれがペアで同期して動作することで、FP、INT、XMXタスクを同時に実行できます。Arc GPUは非常に高負荷な処理が可能です。その高負荷の実態と、Xe HPGが複雑なレイトレーシングタスクをどのように処理するかについては、以下のIntelの説明ビデオをご覧ください。
Intelは常に自社のメディアエンジンに誇りを持っており、その先頭に立つのが超高速のQuickSyncテクノロジーです。Xe XPGのメディアエンジンも例外ではありません。グラフィックスチップに期待されるあらゆる最新機能(8K HDRエンコード/デコード、HEVC、VP9など)に加え、Arcの発表当時、他のチップ(CPUまたはGPU)が提供していなかった重要な機能として、ハードウェアアクセラレーションによるAV1エンコード機能が搭載されています。(ただし、NvidiaのGeForce RTX 40シリーズもAV1エンコードをサポートします。)

インテル
非常に効率的な次世代ビデオ規格は、業界大手のコンソーシアムによって作成され、急速に標準になりつつあり、最新のデスクトップ GPU は、システムに負担をかけずに 8K ビデオを視聴できるAV1デコードをサポートしていますが、これまでは、実際に AV1 ビデオを作成するにはソフトウェアのみを使用する必要がありました。
Intelによると、Arcによって実現されるハードウェアアクセラレーションによるAV1エンコードは、ソフトウェアエンコードの50倍の速度で、他のエンコーダーと同じビットレートで、はるかに鮮明なストリーミング映像を配信できるとのことです。ArcのAV1性能をテストしたところ、NVIDIAやAMDの従来型エンコーダー(NVENCでさえも)を凌駕することが判明しました。
同社の Deep Link スイートの一部として、オール Intel のラップトップおよびデスクトップで提供される、CPU と GPU のどちらかではなく両方のメディア エンジンを活用する Hyper Encode 機能と組み合わせると、Arc ベースのシステムはビデオ クリエイターにとって非常に魅力的なものになる可能性があります。
Xe HPGディスプレイエンジン

インテル
Xe HPGディスプレイエンジンはArc GPUスタック全体で一貫しているため、すべてのArcグラフィックスカードは同じビデオ出力機能を提供します(ただし、ポート構成はモデルによって異なります)。実際に8K画面2台でゲームをプレイする場合、高いフレームレートは期待できませんが、生産性タスクですべてのピクセルを使いたい場合、Arcが8Kをサポートしていることは安心です。
Intel Arc AシリーズGPUラインナップをご覧ください

インテル
少し時間を取って、これまでの技術的な話は現実的な領域に戻しましょう。Intelは、多数のXeコアとレンダリングスライスを2つの専用Arc「Alchemist」GPUに統合しました。ハイエンドのACM-G10はフラッグシップのArc 7グラフィックスオプションに搭載され、より控えめなACM-G11はArc 3ラップトップとデスクトップGPUに搭載されています。

インテル

インテル
そこから、これらのGPUは様々な市場ニーズに合わせて細分化されていきます。上のグラフは、ノートパソコン向けArcグラフィックスの第1世代がどのように発展してきたかを示しています。
Xe HPGグラフィックスのクロック速度
上記のノートPC向けGPUスペックチャートを見て、何かに気づいたかもしれません。それは、クロック速度が非常に低いことです。(デスクトップGPUははるかに高速で、しかもより一般的に動作します。)NvidiaのGPUが2GHzを突破し、一部のAMD GPUが2.5GHzを超える時代に、IntelのArcモバイルが最高1650MHz、最低900MHzという数値は、少々驚きです。しかし、ライバルのグラフィックブランド間のクロック速度は、見た目ほど明確ではありません。

インテル
AMDのRadeon GPUの「ゲームクロック」は、以前説明したように、Nvidiaの「ブーストクロック」とは異なります。IntelはArc GPUに「グラフィックスクロック」と呼ばれる別の指標を使用しています。Petersen氏は、Intelのグラフィックスクロックを、特定のGPUが想定している一般的な軽負荷および重負荷(He XPGの場合はゲーム、ワークステーションカードの場合はおそらく計算タスクなど)の平均クロック速度と定義しました。上記のラップトップGPUのチャートを見ると、それぞれに定義されているTDPの範囲も確認できます。グラフィックスクロックは、利用可能な最低TDPに基づいています。言い換えれば、ラップトップグラフィックス向けのIntelのグラフィックスクロックは、基本的にArc GPUのほぼ最悪のシナリオを表しています。(もちろん、デスクトップGPUは固定の電力バジェットを使用し、はるかに典型的な動作をします。)

インテル
とはいえ、グラフィックコアは負荷に応じて動作速度が異なります。例えば、2Dのレトロゲームでははるかに高速になり、Xe CoreやRender Sliceのあらゆる部分に負荷がかかる複雑な最新ゲームでははるかに低速になります。また、ワット数もパフォーマンスに大きな違いをもたらします。NvidiaのモバイルGeForce製品で見られるように、GPUに多くの電力を投入することで、下位グレードのGPUでも、一見するとより高性能な兄弟機種の低ワットバージョンを上回る性能を発揮できる場合があります。
クロック速度がすべてではないことも注目すべき点です。同じAMDのアーキテクチャでは、一般的に高速であるほど良いとされています。例えば、2GHzのGeForce GPUは1.5GHzのものよりも高速です。しかし、AMDのデスクトップ向けRadeon RX 6500 XTは、2.8GHzという驚異的なクロック速度を誇るにもかかわらず、兄弟機種に遅れをとっています。AMDのRobert Hallock氏がFull Nerdポッドキャストで説明したように、クロック速度そのものの向上は、パフォーマンス向上の唯一の方法ではありません。同社のRyzen 7 5800X3Dプロセッサは、クロック速度を下げ、チップ上に巨大なキャッシュを搭載することで、ゲームパフォーマンスを大幅に向上させました。
つまり、それは複雑だということです。
でも待ってください、まだあります!

ブラッド・チャコス/IDG
Intel Xe HPGアーキテクチャの解説はこれで終わりです。マトリックスエンジンやメディアエンコーダーに関する話で興味が湧いた方は、Intel Arc A770およびA750グラフィックスカードのレビューをご覧ください。これらの技術的な詳細が現実世界でどのように実現されるのか、詳しく解説しています。
Arcは、良い面でも悪い面でも、競合製品とは大きく異なるパフォーマンスを発揮します。その原動力となっているのがXe HPGです。IntelのArc A750とA770 Limited Editionは、10月12日に店頭に並びました。