掲載期間25/12/04~25/12/17 求人No.GRAND-251014KNI

分散トレーニングおよび推論最適化エンジニア (LLM) - GPU 最適化部門/Mgrクラス

SE(Web・オープン系)

年収900万円~1149万円
海外展開あり(日系グローバル企業)上場企業大手企業新規事業・新サービス海外出張海外折衝土日祝休みポテンシャル採用(未経験可)CxO候補海外転勤年収600万以上インセンティブ制度ストックオプションありフレックス勤務リモートワーク可能育児支援制度
募集情報
なぜ募集しているのか
弊社からの入社実績20名以上あり 部門強化のため増員
退職金制度あり 平均残業20~30時間程度
平均年齢34.3歳 平均年収7,740千円

採用理由
- 最先端の LLM トレーニングと推論の最適化に大規模に取り組みます。
- 効率性の向上とコストの削減により、楽天の AI インフラストラクチャに直接影響を与えます。
- 影響力の大きい課題について、グローバル AI/ML チームと連携します。
- 最先端の GPU 最適化を研究し、実装する機会。

部門概要
GPU最適化部門は、楽天全体のAIインフラストラクチャの戦略的管理、最適化、ガバナンスを担い、機械学習ワークロードにおけるコンピューティングリソースの高性能かつコスト効率の高い活用を実現します。最新のHopperアーキテクチャや今後登場予定のBlackwellアーキテクチャを含む、数千基のアクセラレータを網羅する大規模ハイブリッドインフラストラクチャを統括しています。
AI イノベーションの中心的な推進役として、私たちは次のことを行います。
どんな仕事か
- オンプレミスとマルチクラウド環境全体でコンピューティング リソースの割り当てを最適化し、トレーニングと推論のワークロードの効率を最大化します。
- 多様なアクセラレータ リソースのハイブリッド オーケストレーションを管理し、シームレスなスケーラビリティとコスト効率の高い展開を実現します。
- LLMと生成AIに特に焦点を当て、大規模分散トレーニングのフレームワークを開発および強化する

ポジションの詳細
GPUトレーニング&推論最適化エンジニアとして 、楽天のGPUクラスターにおけるLLMトレーニングおよび推論ワークロードのパフォーマンス、効率、スケーラビリティの最大化に注力していただきます。トレーニングフレームワーク(PyTorch、DeepSpeed、FSDPなど)と推論エンジン(vLLM、TensorRT-LLM、Triton、SGLangなど)を徹底的に最適化し、楽天のAIモデルが最高の効率で動作することを保証します。
この役割には、トレーニング時間の短縮、GPU 使用率の向上、推論レイテンシの最小化に重点を置いた、GPU アクセラレーション ML フレームワーク、分散トレーニング、推論最適化に関する高度な専門知識が必要です。

主な責任
- LLM トレーニングフレームワーク ( PyTorch、DeepSpeed、Megatron-LM、FSDP など) を最適化して、GPU の使用率を最大化し、トレーニング時間を短縮します。
- 分散トレーニングのボトルネック ( NCCL の問題、CUDA カーネルの効率、通信のオーバーヘッドなど) をプロファイルして最適化します。
-低レイテンシ、高スループットの LLM サービス (vLLM、TensorRT-LLM、Triton、SGLang)向けに推論の最適化 (量子化、動的バッチ処理、KV キャッシュなど)を実装および調整します。
- インフラストラクチャ チームと連携して、大規模なトレーニング ジョブの GPU クラスターのスケジュール、リソース割り当て、フォールト トレランスを改善します。
-トレーニングスループット、メモリ効率、推論のレイテンシを測定および改善するためのベンチマーク ツールを開発します。
- 最先端の技術 (専門家の混合、推測的デコードなど) を研究して適用し、LLM のパフォーマンスを最適化します。
求められるスキルは
必須 必須資格:
- GPU アクセラレーションによるML トレーニングと推論の最適化、できれば LLM または大規模ディープラーニング モデルでの 3 年以上の実務経験。
- PyTorch、DeepSpeed、FSDP、またはMegatron-LMに関する深い専門知識と、分散トレーニングの最適化の経験。
- LLM 推論の最適化 (例:量子化、プルーニング、KV キャッシュ、連続バッチ処理) に関する深い知識。
- コンピュータサイエンス、エンジニアリング、または関連分野の学士号以上の学位。
 
希望する資格:
- CUDA、Triton カーネル、NVIDIA ツール (Nsight、NCCL)、パフォーマンスプロファイリング (例: PyTorch Profiler、TensorBoard) に精通していること。
- LLM 固有の 最適化 (例: FlashAttention、PagedAttention、LoRA、投機的デコード)の経験。
- GPU ワークロード用の Kubernetes (K8s) (例: KubeFlow、Volcano) に関する知識。
- オープンソース MLフレームワーク (例: PyTorch、DeepSpeed、vLLM) への貢献。
- 推論サービスフレームワーク (例: vLLM、TensorRT-LLM、Triton、Hugging Face TGI) の経験。

言語:
英語 (総合 - 3 - 上級)
雇用形態は
正社員
どこで働くか
東京都
給与はどのくらい貰えるか
900万円 ~ 1149万円
会社概要
社名
楽天グループ株式会社
事業内容・
会社の特長
インターネットサービス
市場事業
トラベル事業
その他、国内インターネットサービス
海外事業等

金融サービス
クレジットカード事業
銀行事業
証券事業
電子マネー事業等

その他
通信事業
プロスポーツ事業等
設立
1997年2月7日
資本金
452,647百万円(2024年12月31日現在)
従業員数
単体:9,885名  連結:29,334名(2024年12月31日現在)
取扱い紹介会社
株式会社グランディール
厚生労働大臣許可番号:06-ユー300050
紹介事業許可年:2016年
登録場所
株式会社グランディール
〒150-0031 東京都渋谷区桜丘町13-4 アロマ桜丘4F
掲載中の求人
現在3755件の求人を掲載しています。
最近ご覧になった求人に基づいたおすすめの求人
興味あり
興味ありしました
「分散トレーニングおよび推論最適化エンジニア (LLM) - GPU 最適化部門/Mgrクラス」と類似した職種の転職・求人情報をぜひチェックして下さい。
若手ハイキャリアのスカウト転職ならアンビ
アンビは若手ハイキャリアのためのスカウト転職サービス。年収500万円以上の案件が多数。応募前に合格可能性を判定できる機能や、職務適性がわかるツールなど独自機能が充実。大手からスタートアップ・行政など、ここにしかない募集も。
若手ハイキャリアのスカウト転職