前世代と比較して最大 20 倍のパフォーマンス
NVIDIA A100 GPU [80GB]

2021年に、NVIDIA Ampere(アンペア)アーキテクチャ採用のNVIDIA A100 Tensor Core GPU [80GB版] がリリースされました。

NVIDIA A100 GPU は、コアアーキテクチャに多くの改良を加え、前世代(NVIDIA V100)と比較して最大 20 倍のパフォーマンスを発揮し、新しいスパース性機能を使うことにより、そこからさらに2倍の高速化を実現しました。

単精度・倍精度演算性能の両方を兼ね備え、ディープラーニング、HPC(ハイパフォーマンスコンピューティング)、データサイエンス、シミュレーションなど、大規模な計算において、最大のパフォーマンスを発揮します。

NVIDIA A100 GPU の販売またはレンタルの見積依頼・ご質問など、お気軽にお問い合わせください。

NVIDIA A100 Tensor Core GPU

nvidia-a100-sxm
NVIDIA Ampere アーキテクチャ A100 [SXM]

NVIDIA Ampere GPU アーキテクチャをベースにした NVIDIA A100 Tensor Core GPUは、80GBの大容量メモリを搭載しています。

NVLink で2基のNVIDIA A100 GPUを接続することにより、160GBという広大なGPUメモリ空間の実現と、高速なGPU間通信が可能です。
新しい第 3 世代 NVLink と PCIe Gen 4 により、マルチ GPU システム構成を高速化します。

また、高帯域幅の HBM2 メモリ、より大容量かつ高速のキャッシュを採用し、さらに多くの CUDA コアと Tensor コアにデータを送り込むことができます。

NVIDIA Ampere アーキテクチャは、レイテンシを短縮し、AI や HPCソフトウェアの複雑さを軽減しながら、プログラミングを容易にします。

NVIDIA A100 GPU は、大規模で複雑なワークロードだけでなく、多数の小規模なワークロードも効率的に高速化できるように設計されています。

A100 GPU は、予測不可能なワークロードの需要に対応できるデータセンターの構築を可能にすると同時に、きめ細かなワークロードのプロビジョニング、GPU 利用率の向上、TCOの削減を実現します。

参考販売価格:税込 2,013,000円(税抜 1,830,000円)
発売時期:2021年6月
レンタル価格はこちら

NVIDIA A100 Tensor Core GPU 特徴

nvidia-a100-pcie
NVIDIA A100 Tensor Core GPU [PCIe]
  • NVIDIA Ampereアーキテクチャ搭載
  • 単精度・倍精度演算性能の両方を兼ね備えている!
  • AIトレーニング向けのTF32を使用して、設定不要で最大6倍高速な性能を実現
  • AI推論のためのマルチインスタンスGPU(MIG)により最大7倍高速な性能を実現
  • ハイパフォーマンスでのデータ分析が可能

NVIDIA A100 Tensor Core GPU スペック

NVIDIA A100 Tensor Core GPU [40GB] は、販売終了となりました。
NVIDIA A100 Tensor Core GPU [80GB]のみの取り扱いとなります。

NVIDIA A100
​PCIe

(GA100 GPUコア)
FP649.7 TFLOPS
FP64 Tensor コア19.5 TFLOPS
FP3219.5 TFLOPS
TF32 Tensor コア312 TFLOPS*/
156 TFLOPS
BFLOAT16 Tensor コア624 TFLOPS*/
312 TFLOPS
FP16 Tensor コア624 TFLOPS*/
312 TFLOPS
FP8 Tensor コア
INT8 Tensor コア1,248 TOPS*/
624 TOPS
GPUメモリ80 GB HBM2e
GPUメモリ帯域幅1,935 GB/s
相互接続NVLink:600GB/s
PCIe Gen4:64GB/s
マルチインスタンスGPU各10GBで最大7つのMIGS
最大熱設計電力(TDP)300 W
NVIDIA A100 取付けに関する注意点・稼働環境
  1. NVIDIA A100は、サーバ搭載用のGPUです。(​ファンレス・ヒートシンクタイプ)※タワー型搭載時は強制外排気ファンの搭載をお勧めします。
  2. 消費電力:A100 40GB「250W」、A100 80GB「300W」
  3. CPU 8pin 電源が必要 ※PCIe 8pin電源2回路から変換可能
  4. フルハイトフルレングス(FHFL)Doubleワイドカードのため、隣り合うPCIex16スロットが2つ以上あること
  5. PCI Expressはgen3/gen4に対応
  6. 各社のサーバーに搭載可能 ※PDB(PowerDistributionBoard)からの配線ケーブルがメーカー・機種によって異なる場合があります。
  7. 電源ケーブルの有無をご確認いただき、ない場合は電源(PSU)もしくはPDBからのケーブルをご用意いただく必要があります。
  8. BIOS等々のUpdateが必要になる場合があります。搭載予定メーカーのホームページもしくは、NVIDIAのホームページから搭載可否をご確認いただくことをお勧めします。

​ご不明な点は、弊社までお問い合わせください。

NVIDIA A100 Tensor Core GPU パフォーマンス

NVIDIA A100 GPU Performance for AI

最大級のモデルで最大 3 倍高速な AI トレーニングを実現

nvidia-a100-performance1
出典:NVIDIA

DLRM on HugeCTR framework, precision = FP16 | ​NVIDIA A100 80GB batch size = 48 | NVIDIA A100 40GB batch size = 32 | NVIDIA V100 32GB batch size = 32.

※NVIDIA A100 Tensor Core GPU [40GB] は、販売終了のため、[80GB]のみの取り扱いとなります。

AI 開発は、次の新たな課題に向けて、データの増加や処理が爆発的に複雑化しています。モデルのトレーニングには、大規模な計算処理能力とスケーラビリティが必要になります。

NVIDIA A100 のTensor コアと Tensor Float (TF32) を利用することで、NVIDIA Volta と比較して最大 20 倍のパフォーマンスがコードを変更することなく得られます。
加えて、Automatic Mixed Precision と FP16 の活用でさらに 2 倍の高速化が可能になります。

NVIDIA® NVLink®、NVIDIA NVSwitch™、PCI Gen4、NVIDIA® Mellanox® InfiniBand®、NVIDIA Magnum IO™ SDK と組み合わせることで、数千個もの A100 GPU まで拡張できます。
2,048 基の A100 GPU という大規模な環境で、BERT などのトレーニング ワークロードを、世界記録となる 1 分未満で解決できます。

ディープラーニング レコメンデーション モデル (DLRM) といった大きなデータ テーブルを持つ最大級のモデルの場合、A100 80GB であれば、ノードあたり最大 1.3 TB の統合メモリに到達し、A100 40GB の最大 3 倍のスループットの増加が可能です。
NVIDIA は、AI トレーニングの業界標準ベンチマークであるMLPerfで複数のパフォーマンス記録を打ち立て、そのリーダーシップを確立しました。


NVIDIA A100 GPU Performance for AI

AI推論パフォーマンス

CPU と比較して最大 249 倍の高速化
nvidia-a100-performance2
出典:NVIDIA

BERT-Large Inference | CPU only: Dual Xeon Gold 6240 @ 2.60 GHz, precision = FP32, batch size = 128 | V100: NVIDIA TensorRT™ (TRT) 7.2, precision = INT8, batch size = 256 | A100 40GB and 80GB, batch size = 256, precision = INT8 with sparsity.​

A100 40GB と比較して最大 1.25 倍
nvidia-a100-performance3
出典:NVIDIA

MLPerf 0.7 RNN-T measured with (1/7) MIG slices. Framework: TensorRT 7.2, dataset = LibriSpeech, precision = FP16.

※NVIDIA A100 Tensor Core GPU [40GB] は、販売終了のため、[80GB]のみの取り扱いとなります。

NVIDIA A100 GPUには、推論ワークロードを最適化する画期的な機能が導入されています。
FP32 から INT4 まで、あらゆる精度を加速します。マルチインスタンス GPU (MIG) テクノロジでは、1 個の A100 で複数のネットワークを同時に動作できるため、コンピューティング リソースの使用率が最適化されます。

また、構造化スパース性により、A100 による数々の推論性能の高速化に加え、さらに最大 2 倍のパフォーマンスがもたらされます。
BERT などの最先端の対話型 AI モデルでは、NVIDIA A100 GPUは推論スループットを CPU の最大 249 倍に高めます。

メモリ容量の大きな NVIDIA A100 80GB は、各 MIG のサイズが 2 倍になります。自動音声認識用の RNN-T といった、バッチサイズが制約された非常に複雑なモデルでは、A100 40GB に比べて最大 1.25 倍のスループットが得られます。

市場をリードする NVIDIA のパフォーマンスはMLPerf 推論 推論で実証されました。
NVIDIA A100 は 20 倍のパフォーマンスを実現し、そのリードをさらに広げます。


NVIDIA A100 GPU Performance for HPC

HPC(ハイパフォーマンスコンピューティング)パフォーマンス

4 年間で 11 倍の HPCパフォーマンス!
nvidia-a100-performance4
出典:NVIDIA

Geometric mean of application speedups vs. P100: Benchmark application: Amber [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT-Large Fine Tuner], Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64 : 10)], TensorFlow [ResNet-50], VASP 6 [Si Huge] | GPU node with dual-socket CPUs with 4x NVIDIA P100, V100, or A100 GPUs.​

HPCアプリケーションで最大 1.8 倍高速
nvidia-a100-performance5
出典:NVIDIA

Quantum Espresso measured using CNT10POR8 dataset, precision = FP64.

※NVIDIA A100 Tensor Core GPU [40GB] は、販売終了のため、[80GB]のみの取り扱いとなります。

NVIDIA A100 は、GPU の導入以降で最大のHPCパフォーマンスの飛躍を実現するために、Tensor コアを導入しています。

NVIDIA A100 80 GB の最速の GPU メモリと組み合わせることで、研究者は 10 時間かかる倍精度シミュレーションをA100 で 4 時間たらすに短縮できます。
HPC アプリケーションで TF32 を活用すれば、単精度の密行列積演算のスループットが最大 11 倍向上します。

​大規模データセットを扱う HPC アプリケーションでは、メモリが追加された A100 80GB により、マテリアル シミュレーションの Quantum Espresso において最大 2 倍のスループットの増加を実現します。
​この膨大なメモリと前例のないメモリ帯域幅により、A100 80GB は次世代のワークロードに最適なプラットフォームとなっています。


ハイパフォーマンス データ分析
ビッグ データ分析ベンチマークでCPUより最大83倍

nvidia-a100-performance6
出典:NVIDIA

Big data analytics benchmark | 30 analytical retail queries, ETL, ML, NLP on 10TB dataset | CPU: Intel Xeon Gold 6252 2.10 GHz, Hadoop | V100 32GB, RAPIDS/Dask | A100 40GB and A100 80GB, RAPIDS/Dask/BlazingSQL​

※NVIDIA A100 Tensor Core GPU [40GB] は、販売終了のため、[80GB]のみの取り扱いとなります。

データ サイエンティストは、大量のデータセットを分析し、可視化し、インサイトに変えられる能力を求めています。

しかしながら、スケールアウト ソリューションは行き詰まることが多々あります。複数のサーバー間でデータセットが分散されるためです。

NVIDIA A100 GPUを搭載したアクセラレーテッド サーバーなら、大容量メモリ、2 TB/秒を超えるメモリ帯域幅、NVIDIA® NVLink® と NVSwitch™ によるスケーラビリティに加えて、必要な計算処理能力を提供し、データ分析ワークロードに対応することができます。

​InfiniBand、NVIDIA Magnum IO™ 、オープンソース ライブラリの RAPIDS™ スイート (GPU 活用データ分析用の RAPIDS Accelerator for Apache Spark を含む) と組み合わせることで、NVIDIA データ センター プラットフォームは前例のないレベルのパフォーマンスと効率性で大規模なデータ分析ワークロードを高速化します。

NVIDIA A100 80GB はビッグ データ分析ベンチマークで、CPU の 83 倍高いスループット、A100 40GB では 2 倍高いスループットでインサイトをもたらします。データセット サイズが爆発的に増える昨今のワークロードに最適です。

MIG (マルチインスタンス GPU) とは・・・

最大 7 倍高速な性能を実現

nvidia-a100-performance7
出典:NVIDIA

NVIDIA T4 Tensor Core GPU:NVIDIA TensorRT™(TRT)7.1、精度= INT8、バッチサイズ= 256
V100:TRT 7.1、精度= FP16、バッチサイズ= 256
A100:実稼働前のTRT、バッチサイズ= 94、精度= INT8、スパース性

NVIDIA A100 と MIG の組み合わせにより、GPU 対応インフラストラクチャを今までにないレベルで最大限に活用できます。

MIG によって A100 GPU は最大 7 つの独立したインスタンスに分割でき、複数のユーザーが自分のアプリケーションや開発プロジェクトを GPU で高速化できます。

MIG は Kubernetes やコンテナー、ハイパーバイザベースのサーバー仮想化によるNVIDIA Virtual Compute Server(vComputeServer) と連携します。

MIG を使用することで、インフラ管理者は各ジョブのサービス品質 (QoS) を保証した適切なサイズの GPU を提供し、使用率を最適化し、高速化されたコンピューティング リソースの範囲をすべてのユーザーに拡大することができます。

MIGテクノロジの仕組み

nvidia-multi-instance-gpu
NVIDIA Multi Instance GPU

MIG を使用すれば、複数のインスタンスでジョブが同時に実行され、それぞれに専用のコンピューティング リソース、メモリ、メモリ帯域幅が割り当てられるため、予測可能なパフォーマンス、 サービス品質、最大 GPU 使用率を実現することができます。

たとえば、管理者はインスタンスを 2 つ作成し、メモリをいずれも 20 ギガバイトにしたり、10 ギガバイトのインスタンスを 3 つ作成したり、5 ギガバイトのインスタンスを 7 つ作成したりできます。​あるいは、それらを組み合わせることもできます。 システム管理者は、ワークロードの種類が異なるときに、ユーザーに適切なサイズの GPU を提供できます。

MIG インスタンスは構成を動的に変更させることもできます。
​管理者は、ユーザーや業務上の要求が変わったときに、それに合わせて GPU リソースを変更できます。
​たとえば、昼はスループットの低い推論のために 7 つの MIG インスタンスを使用し、夜はディープラーニング トレーニングのために 1 つの大きな MIG インスタンスに再構成することが可能です。

NVIDIA A100 Tensor Core GPU 搭載製品

NVIDIA DGX Systems

・DGX Station A100 … A100 GPU × 4基搭載システム
・DGX A100 … A100 GPU × 8基搭載システム

NVIDIA DGX Systems
GS-Supermicro 740GP-TNRT

・A100 GPU × 最大 4基搭載
・Windowsも搭載可能

GS-Supermicro 740GP-TNRT

NVIDIA A100 Tensor Core GPU 搭載可能な製品について、
ご不明な点やご質問などありましたら、お問い合わせください!

お気軽にご相談ください!

製品に関するご質問・ご相談など、お気軽にお問い合わせください。

NVIDIA認定のエリートパートナー「GDEPソリューションズ」は、
​ お客様の用途に最適な製品のご提案から導入までサポートします。