Interrop Tokyo カンファレンス

+

YD-02

6月12日(水) 12:10-13:30

PFNが考えるディープラーニングを支える大規模GPUクラスタ

概要: ディープラーニングによる研究開発には大規模な計算資源が必要であり、その計算資源が競争力のひとつとなっています。複数のGPUを用いる分散ディープラーニングを実現するためには，「分散ディープラーニング技術」および「ソフトウェア」に加え、GPU間での高速通信を実現する「データセンタネットワーク」が重要となってきています。また、計算資源の効率的な活用には、複数の学習ジョブをGPUクラスタ基盤上で高効率に実行することがクリティカルな挑戦です。

本セッションでは、(1) ディープラーニングの研究開発を支える大規模GPUクラスタの設計と運用、(2) 分散学習を支えるEthernet・IPによるRemote Direct Memory Access（RDMA）技術であるRoCEv2、および、(3) その計算資源を最大限活用するためのクラウド基盤技術を応用したプラットフォームについて紹介します。（RoCE: RDMA over Converged Ethernet）

要旨

大規模GPUクラスタの設計と運用
分散学習にRemote Direct Memory Access（RDMA）技術RoCEv2
Kubernetesによる機械学習計算資源の管理

講演者: Chair

浅井　大史

（株）Preferred Networks（PFN）

リサーチャー

Speaker

松本　直人

（株）Preferred Networks（PFN）

Speaker

大村伸吾

（株）Preferred Networks（PFN）

Speaker

下川洋平

Cisco Systems

プロダクトマネージャー

2009年Cisco Systems入社
SP部門システムエンジニア、SPルータ開発エンジニアを経て2015年よりデータセンターネットワーク日本市場の製品責任者に至る

ページの先頭へ