ベンチマークは、本質的に議論の余地があり、必ずしも現実世界のパフォーマンスを反映しているわけではないものの、あらゆる定量評価において重要なツールです。だからこそ、オタクたちはベンチマークに夢中になるのです。そして、オタクだけではありません。企業は、数百万ドル、時には数十億ドルもの投資を決定する際に、サードパーティのベンチマーク結果を使用しています。そのため、企業が比喩的に「天秤に指をかけた」という証拠が見つかった場合、大きな影響を与える可能性があります。最近の、そして非常に具体的なIntel Xeon CPUベンチマークがまさにその例です。
SPEC(Standard Performance Evaluation Corporation)は、広く普及している産業用テスト「SPEC CPU 2017」の2022年版および2023年版において、Xeonプロセッサのテスト結果2600件以上を無効としました。SPECは調査の結果、Intelが「SPECコードとデータセットに関する事前知識を用いて、523.xalancbmk_r / 623.xalancbmk_sベンチマークの性能を特に向上させるコンパイルを実行し、適用範囲が狭い変換を実行していた」コンパイラを使用していたことを発見しました。
平たく言えば、SPECはIntelがコンパイラをベンチマーク専用に最適化したと非難しており、その結果はエンドユーザーが実環境で期待するパフォーマンスを反映していないとしています。Intelのカスタムコンパイラは、SPECテストの関連結果を最大9%も水増ししていた可能性があります。より技術的な詳細(率直に言って、その多くは私のコンピュータサイエンスの理解レベルを超えています)については、ServeTheHomeとPhoronixのレポートをTom's Hardware経由でご覧ください。
SPECは自社のベンチマークデータベースを遡ってこれらの結果を発見しました。過去の記録のために削除したわけではありませんが、自社のレポートでは無効にしています。最新の産業用Xeonプロセッサである第5世代Emerald Rapidsシリーズで使用されているコンパイラのやや新しいバージョンでは、これらのパフォーマンス向上を謳うAPIは使用されていません。
XeonプロセッサとSPEC 2017テストはどちらも、いわゆる「ビッグアイアン」と呼ばれる産業・教育用途向けのハイレベルハードウェアであり、私たちが普段カバーしているコンシューマー市場とは特に関連性がないことを指摘しておきます。しかし、注目を集めるベンチマークのために企業がチップにちょっとしたパワーを与えることは、決して目新しいことではありません。最近では、業界全体のモバイルチップサプライヤー(Apple以外のほぼすべてのスマートフォンにチップを供給しているQualcomm、Samsung、MediaTek)が、2020年にAndroidのパフォーマンス結果を事実上偽造したとして非難されました。企業が自ら報告したベンチマークへの干渉(多くの場合、具体的なパラメータが示されておらず、したがって検証不可能)の非難は、非常によく見られます。
著者: Michael Crider、PCWorld スタッフライター
マイケルはテクノロジージャーナリズムのベテランとして10年のキャリアを持ち、AppleからZTEまであらゆるテクノロジーをカバーしています。PCWorldではキーボードマニアとして活躍し、常に新しいキーボードをレビューに使用し、仕事以外では新しいメカニカルキーボードを組み立てたり、デスクトップの「バトルステーション」を拡張したりしています。これまでにAndroid Police、Digital Trends、Wired、Lifehacker、How-To Geekなどで記事を執筆し、CESやMobile World Congressなどのイベントをライブで取材してきました。ペンシルベニア州在住のマイケルは、次のカヤック旅行を心待ちにしています。