NVIDIA、自動運転車向けSoC「Parker」の詳細を発表

米NVIDIAは22日(現地時間)、「Tegra X1」の後継モデルとなる自動運転車向けSoC「Parker」の詳細を正式に発表しました。

118 NVIDIA DRIVE PX2

「NVIDIA DRIVE PX2」

既に今年1月のCESにて発表済みの自動運転車の開発プラットフォーム「DRIVE PX2」は、次世代高性能SoCであるParkerを2基搭載していることが明らかにされていましたが、NVIDIAは今回、その最新SoCの詳細について開示しました。

Parkerは「Tegra X1」の後継モデルであり、CPUおよびGPUの双方において大幅な性能向上を果たしています。かつて「Tegra K1」には、NVIDIAが独自に設計したCPUコア「Denver」が搭載されていましたが、Parkerにおいては、その後継モデルとなる「Denver 2.0」が採用されました。

2基のDenver 2.0コアと4基の「Cortex A57」コアから成る「big.LITTLE」構造のヘキサコアSoCには、256個ものCUDAコアを搭載する「Pascal」世代のGPUコアと128-bit幅のLPDDR4メモリが統合されています。

118 Parker specification

プレスリリースによると、製造には台湾TSMCの「16nm FinFET」プロセスを使用しており、他社製の競合マルチコアSoCと比較して50~100%ほど高いCPU処理能力に加えGPUについてもTegra X1比でおよそ1.5倍となる1.5TFLOPSもの処理性能を実現させているとのことです。

なお、Tegra X1の時と同様に、NVIDIAが公称する1.5TFLOPSという値は単精度浮動小数点演算能力(FP32)ではなく、半精度浮動小数点演算能力(FP16)の値であり、FP32換算では、およそ750GFLOPSの演算能力を有していることになります。

しかしながら、PCゲーミングなどの世界においてはFP32が主流ではあるものの、未だにモバイル分野においてはメモリ帯域や消費電力を抑える関係上、FP16が重要な役割を担っていることを踏まえると、ParkerやTegra X1の方向性は理に適っていると言えるのかもしれません。

GPUPascal(CUDAコア 256基)


対応API
DirectX 12
OpenGL 4.5
OpenGL ES 3.1
NVIDIA CUDA 8.0
Android Extention Pack(AEP)
Vulkan API
CPUDenver 2.0 × 2 + Cortex-A57 × 4
RAM128-bit LPDDR4(ECC機能 搭載)
ディスプレイ4K @60fps (※最大3台まで)
エンコード H.265 / VP9(最大4K 60fps)
デコード同上
製造プロセス16nm FinFET

「Parker」の主なスペック

とは言え、2種類の高性能CPUコアと最新の高性能GPUコアで構成されているParkerは、あくまでも車載システム向けのSoCであり、そのままタブレットなどのモバイル端末に搭載させるにはあまりに消費電力や発熱が大きいはず。もしかすると今後、スペック構成を変更したモバイル端末向けParkerが発表されることになるかもしれません。

また、DRIVE PX2はディープラーニング分野においても非常に高い適正があり、最も複雑な推論アルゴリズムにおいて秒間24兆回もの処理を実行可能であるほか、既に全世界で80以上もの自動車メーカーや研究所などにおいて、自動運転技術の研究用途に採用されているとのことです。

[NVIDIA via PC Watch]

5 件のコメント

このコメント欄には、弊社が開発する人工知能を搭載したコメントシステム「Quelon」は導入されていません。メディア媒体またはコミュニティサイトにおける導入をご検討の場合はお気軽にお尋ねください。

  1. No Name 2016年8月24日 18:12 No.7904 返信

    はい、お嬢様

    • No Name 2016年8月30日 11:32 No.8903 返信

      そうくるよなw

  2. No Name 2016年8月24日 20:31 No.7938 返信

    これが噂の任天堂NXか…

  3. No Name 2016年8月25日 00:46 No.7978 返信

    細かいことですが,
    for deep learning-based self-driving AI cockpit systems
    とあるように,FP16だとFP32と比べて処理速度が2倍になることが重要です.
    例えばGTX 1080などGP104だと,FP16でも処理速度はFP32と同じです.
    ですので,モバイル向けだから~というのは少し違うのでは?と思いました.(間違って要たらすみません)

    • No Name 2016年8月29日 17:11 No.8740 返信

      FLOPSは演算回数なので、「ビット幅半分だから、FP32換算の倍の処理能力になる」とは行かないよ。
      精度の問題なので、基本的には大は小を兼ねる。
      FP32の処理能力とFP16の処理能力が同じになる(ことがある)というのはそういうこと。
      もちろん、設計次第でFP16用回路をFP32と別に作ってあれば違ってくるけど。

      AIでは精度低くても問題ないので、FP16でも十分実用になる。
      それによって必要な回路が半分になるので、同じトランジスタ数で演算能力を倍にするか、トランジスタを減らして消費電力や発熱を減らすか、それは設計次第。
      これがどっちかを選んだのかは知らん。

このニュースでディスカッション
  • コメントを投稿する際には「コメントガイドライン」を必ずご覧ください
  • コメントを投稿した際には、コメント機能利用規約(ガイドライン)に同意したものとみなされます
  • 主要ニュースサイトなどの「許可サイト」以外のURLを含む投稿はコメントが保留されます