YD-02
6月12日(水) 12:10-13:30
PFNが考えるディープラーニングを支える大規模GPUクラスタ
- 概要
-
ディープラーニングによる研究開発には大規模な計算資源が必要であり、その計算資源が競争力のひとつとなっています。複数のGPUを用いる分散ディープラーニングを実現するためには,「分散ディープラーニング技術」および「ソフトウェア」に加え、GPU間での高速通信を実現する「データセンタネットワーク」が重要となってきています。また、計算資源の効率的な活用には、複数の学習ジョブをGPUクラスタ基盤上で高効率に実行することがクリティカルな挑戦です。
本セッションでは、(1) ディープラーニングの研究開発を支える大規模GPUクラスタの設計と運用、(2) 分散学習を支えるEthernet・IPによるRemote Direct Memory Access(RDMA)技術であるRoCEv2、および、(3) その計算資源を最大限活用するためのクラウド基盤技術を応用したプラットフォームについて紹介します。 (RoCE: RDMA over Converged Ethernet)
- 要旨
-
- 大規模GPUクラスタの設計と運用
- 分散学習にRemote Direct Memory Access(RDMA)技術RoCEv2
- Kubernetesによる機械学習計算資源の管理
- 講演者
-
Chair
浅井 大史
(株)Preferred Networks(PFN)
リサーチャー
Speaker
松本 直人
(株)Preferred Networks(PFN)
Speaker
大村 伸吾
(株)Preferred Networks(PFN)
Speaker
下川 洋平
Cisco Systems
プロダクトマネージャー
2009年Cisco Systems入社
SP部門システムエンジニア、SPルータ開発エンジニアを経て2015年よりデータセンターネットワーク日本市場の製品責任者に至る