SE（Web・オープン系）

年収900万円～1149万円

海外展開あり（日系グローバル企業）上場企業大手企業新規事業・新サービス海外出張海外折衝土日祝休みポテンシャル採用（未経験可）CxO候補海外転勤年収600万以上インセンティブ制度ストックオプションありフレックス勤務リモートワーク可能育児支援制度

なぜ募集しているのか: 弊社からの入社実績20名以上あり　部門強化のため増員
退職金制度あり　平均残業20～30時間程度
平均年齢34.3歳　平均年収7,740千円

採用理由
- 最先端の LLM トレーニングと推論の最適化に大規模に取り組みます。
- 効率性の向上とコストの削減により、楽天の AI インフラストラクチャに直接影響を与えます。
- 影響力の大きい課題について、グローバル AI/ML チームと連携します。
- 最先端の GPU 最適化を研究し、実装する機会。

部門概要
GPU最適化部門は、楽天全体のAIインフラストラクチャの戦略的管理、最適化、ガバナンスを担い、機械学習ワークロードにおけるコンピューティングリソースの高性能かつコスト効率の高い活用を実現します。最新のHopperアーキテクチャや今後登場予定のBlackwellアーキテクチャを含む、数千基のアクセラレータを網羅する大規模ハイブリッドインフラストラクチャを統括しています。
AI イノベーションの中心的な推進役として、私たちは次のことを行います。
どんな仕事か: - オンプレミスとマルチクラウド環境全体でコンピューティングリソースの割り当てを最適化し、トレーニングと推論のワークロードの効率を最大化します。
- 多様なアクセラレータリソースのハイブリッドオーケストレーションを管理し、シームレスなスケーラビリティとコスト効率の高い展開を実現します。
- LLMと生成AIに特に焦点を当て、大規模分散トレーニングのフレームワークを開発および強化する

ポジションの詳細
GPUトレーニング＆推論最適化エンジニアとして、楽天のGPUクラスターにおけるLLMトレーニングおよび推論ワークロードのパフォーマンス、効率、スケーラビリティの最大化に注力していただきます。トレーニングフレームワーク（PyTorch、DeepSpeed、FSDPなど）と推論エンジン（vLLM、TensorRT-LLM、Triton、SGLangなど）を徹底的に最適化し、楽天のAIモデルが最高の効率で動作することを保証します。
この役割には、トレーニング時間の短縮、GPU 使用率の向上、推論レイテンシの最小化に重点を置いた、GPU アクセラレーション ML フレームワーク、分散トレーニング、推論最適化に関する高度な専門知識が必要です。

主な責任
- LLM トレーニングフレームワーク ( PyTorch、DeepSpeed、Megatron-LM、FSDP など) を最適化して、GPU の使用率を最大化し、トレーニング時間を短縮します。
- 分散トレーニングのボトルネック ( NCCL の問題、CUDA カーネルの効率、通信のオーバーヘッドなど) をプロファイルして最適化します。
-低レイテンシ、高スループットの LLM サービス (vLLM、TensorRT-LLM、Triton、SGLang)向けに推論の最適化 (量子化、動的バッチ処理、KV キャッシュなど)を実装および調整します。
- インフラストラクチャチームと連携して、大規模なトレーニングジョブの GPU クラスターのスケジュール、リソース割り当て、フォールトトレランスを改善します。
-トレーニングスループット、メモリ効率、推論のレイテンシを測定および改善するためのベンチマークツールを開発します。
- 最先端の技術 (専門家の混合、推測的デコードなど) を研究して適用し、LLM のパフォーマンスを最適化します。
求められるスキルは: 必須必須資格:
- GPU アクセラレーションによるML トレーニングと推論の最適化、できれば LLM または大規模ディープラーニングモデルでの 3 年以上の実務経験。
- PyTorch、DeepSpeed、FSDP、またはMegatron-LMに関する深い専門知識と、分散トレーニングの最適化の経験。
- LLM 推論の最適化 (例:量子化、プルーニング、KV キャッシュ、連続バッチ処理) に関する深い知識。
- コンピュータサイエンス、エンジニアリング、または関連分野の学士号以上の学位。
　
希望する資格:
- CUDA、Triton カーネル、NVIDIA ツール (Nsight、NCCL)、パフォーマンスプロファイリング (例: PyTorch Profiler、TensorBoard) に精通していること。
- LLM 固有の最適化 (例: FlashAttention、PagedAttention、LoRA、投機的デコード)の経験。
- GPU ワークロード用の Kubernetes (K8s) (例: KubeFlow、Volcano) に関する知識。
- オープンソース MLフレームワーク (例: PyTorch、DeepSpeed、vLLM) への貢献。
- 推論サービスフレームワーク (例: vLLM、TensorRT-LLM、Triton、Hugging Face TGI) の経験。

言語:
英語 (総合 - 3 - 上級)
雇用形態は: 正社員
どこで働くか: 東京都
給与はどのくらい貰えるか: 900万円～ 1149万円

分散トレーニングおよび推論最適化エンジニア (LLM) - GPU 最適化部門／Mgrクラス

SE（Web・オープン系）