- なぜ募集しているのか
- 弊社からの入社実績20名以上あり 部門強化のため増員
退職金制度あり 平均残業20~30時間程度
平均年齢34.3歳 平均年収7,740千円
採用理由
フィンテック、予約サービス、Eコマースといった重要なセクターにおいて、業界をリードするLLM(法学修士課程)を確立・支援するため、基盤となるシニアデータエンジニアリングチームを構築しています。このチームは、データの収集、事前学習と微調整のための準備、そしてサービス提供とモニタリングに至るまで、LLMライフサイクル全体に不可欠な堅牢なデータインフラストラクチャの設計、構築、維持において重要な役割を担います。MLエンジニア、データサイエンティスト、研究者と緊密に連携し、データの品質、アクセス性、そしてスケーラビリティを確保することで、社内LLMイニシアチブの成功とパフォーマンスに直接的な影響を与えます。 - どんな仕事か
-
部門概要
楽天グループ株式会社のAI研究開発拠点である楽天技術研究所(RIT)は、東京、シンガポール、ボストン、サンマテオ、ベンガルール、パリにまたがるグローバルな研究拠点ネットワークです。機械学習、ディープラーニング、生成AIに重点を置き、コアAI技術の先駆的な進歩に取り組んでいます。RITの研究者は、大規模言語モデル、インテリジェントエージェントシステム、その他の最先端アプリケーションのユースケースを積極的に研究し、楽天の多様なエコシステム全体にわたるイノベーションを推進しています。
ポジションの詳細
LLM 向けデータ パイプライン開発:
LLMの事前学習、微調整、評価に不可欠な多様なデータセットの取り込み、変換、読み込みを行うための、拡張性、信頼性、効率性に優れたデータパイプライン(ETL/ELT)を設計、開発、保守します。これには、構造化データ、半構造化データ、非構造化テキストデータが含まれます。
高品質なデータセットの作成とキュレーション:
重複排除、ノイズ削減、PII マスキング、トークン化、大規模テキスト コーパスのフォーマットなど、データのクリーニングと前処理のための高度な手法を実装。
データの拡張や合成など、LLM トレーニング用のデータセットを拡張および強化する方法を検討して実装します。
厳格なデータ品質基準を確立して施行し、自動データ検証チェックを実装し、データのプライバシーとセキュリティのコンプライアンス (GDPR、CCPA など) を確保。
データジョブ管理:
LLM 開発ライフサイクル全体で使用されるデータセットのデータのバージョン管理、系統追跡、再現性のための堅牢なシステムを確立します。
データ パイプライン内のデータ関連のパフォーマンスのボトルネックを特定して解決し、データの保存、取得、処理を最適化して効率とコスト効率を高めます。
データ インフラストラクチャとオーケストレーション:
オンプレミスとパブリック クラウド環境の両方で、LLM データ用に特別に設計されたスケーラブルなデータ ウェアハウスとデータ レイクを構築および維持します。
LLM データセットの準備のための複雑なデータワークフローを自動化および管理するために、データオーケストレーションツール (Apache Airflow、Prefect、Dagster など) を実装および管理します。
- 求められるスキルは
-
必須 必須資格:
- コンピューターサイエンス、データサイエンス、エンジニアリング、または関連する定量的分野の学士号または修士号を持ち、データエンジニアリング分野で 3 年以上の専門経験があり、特に大規模なテキスト/画像/音声データセットを含む大規模な機械学習またはデータサイエンスイニシアチブのデータパイプラインの構築と管理に重点を置いている。
- 事前トレーニング、微調整、評価データセットなど、大規模言語モデル (LLM) に特化したデータ エンジニアリングの直接的な経験。
- 大量のテキストコーパスを前処理する際の一般的な課題と手法(ノイズの処理、重複排除、PII の検出/マスキング、大規模なトークン化など)に関する知識。
- データのバージョン管理および系統管理ツール/プラットフォーム (例: DVC、Pachyderm、LakeFS、または MLflow などの MLOps プラットフォーム内のデータ バージョン管理機能) の使用経験。
- データの読み込みと準備の観点からのディープラーニング フレームワーク (PyTorch、TensorFlow、JAX など) に関する知識。
- データ注釈ワークフローとパイプラインの設計および実装の経験。
- Python に非常に堪能で、そのデータ エコシステムに関する豊富な経験があること。
- SQL に精通しており、データ ウェアハウスの概念、データ モデリング、スキーマ設計を十分に理解していること。
その他の情報:
英語資格に関する追加情報
英語: 流暢 - 雇用形態は
- 正社員
- どこで働くか
- 東京都
- 給与はどのくらい貰えるか
- 900万円 ~ 1149万円
掲載期間25/11/30~25/12/13
求人No.GRAND-251014KNDD





