Latest evidence-based health information
Ipad

NvidiaのPascal GPUの技術仕様が明らかに:CUDAのフルカウント、クロック速度など

NvidiaのPascal GPUの技術仕様が明らかに:CUDAのフルカウント、クロック速度など
NvidiaのPascal GPUの技術仕様が明らかに:CUDAのフルカウント、クロック速度など

Nvidiaは火曜日のGTC基調講演で、Tesla P100ボード発表の一環として、新型Pascalグラフィックプロセッサのベールを脱ぎ捨てました。その際、期待を掻き立てるだけの技術情報が提供されました。150億個のトランジスタは大型のMaxwell GPUの2倍以上!16GBの超高速、第2世代の高帯域幅メモリ!Nvidia初の16nmトランジスタ採用チップ!などなど。しかし、同社が(一般向けPascalグラフィックカードに関する情報以外で)明らかにしなかったのは Pascalアーキテクチャの詳細な情報です。ご存知の通り、グラフィックカードマニアが熱狂する情報のことです。

しかし、心配する必要はありません。Nvidia は、開発者向けに Pascal 技術の補足的な詳細分析で、その興味深い情報をすべて提供しています。

詳細に分析すると、いくつか興味深い点が明らかになった。Pascal GP100 GPUは、28nmプロセスで製造されたTitan Xよりも小型の16nmトランジスタを搭載しているものの、ダイサイズはほぼ同じで、600平方mmである。しかし、Pascalはスペースをより効率的に活用しており、技術的に最も高性能な構成では、64個のストリーミングマルチプロセッサ(SM)に最大3840個のCUDAコアと240個のテクスチャユニットを搭載している。比較対象として、Titan XとTesla M40に搭載されている最も高性能なMaxwell GPUは、3072個のCUDAコアを搭載している。Tesla P100に搭載されているバージョンは、56個のSMと3584個のCUDAコアが有効になっている。

Pascal GP100 アーキテクチャ全体のブロック図を以下に示します。(画像をクリックすると拡大できますが、サイズが小さいのは Nvidia のせいです。)

Pascal 100 GPU ブロック図

Nvidia の Pascal GPU のブロック図。

以下は、Pascalのストリーミング・マルチプロセッサの設計を詳しく見てみましょう。各プロセッサは、単精度(FP32)CUDAコアを64個、倍精度(FP64)CUDAユニットを32個搭載しており、それぞれ単精度浮動小数点演算性能で10.6テラフロップス、倍精度浮動小数点演算性能で5.3テラフロップスを実現しています。以下は、Pascalのストリーミング・マルチプロセッサの設計を詳しく見てみましょう。

Pascal 100 GPU ストリーミング マルチプロセッサ

Pascal GPU のストリーミング マルチプロセッサのブロック図。

最後に、Tesla P100 GPU の主要な技術仕様を、Maxwell ベースの Tesla M40 および Kepler ベースの Tesla K40 と比較しながら詳しく紹介します。

テスラP100の比較

ただし、これらの数値や図は氷山の一角に過ぎません。NvidiaのPascal GP100紹介記事では、この新しいGPUの性能についてさらに詳しく解説しています(本当に、他にもたくさんあります)。また、 16GBの第2世代HBMメモリや、驚異的な速度を誇る新しいNVLink相互接続技術など、チップのその他の機能について詳しくは、PCWorldのPascal GPU記事もご覧ください。これらの魅力的な機能は、近いうちに一般向けグラフィックスカードにも搭載される予定です。最初の16nm GeForceモデルは今年後半に発売される予定です。

Otpoo

Health writer and researcher with expertise in evidence-based medicine and healthcare information.