データベースエンジニア

年収900万円～1149万円

海外展開あり（日系グローバル企業）上場企業大手企業新規事業・新サービス海外出張海外折衝土日祝休みポテンシャル採用（未経験可）CxO候補海外転勤年収600万以上インセンティブ制度ストックオプションありフレックス勤務リモートワーク可能育児支援制度

なぜ募集しているのか: 弊社からの入社実績20名以上あり　部門強化のため増員
退職金制度あり　平均残業20～30時間程度
平均年齢34.3歳　平均年収7,740千円

採用理由
フィンテック、予約サービス、Eコマースといった重要なセクターにおいて、業界をリードするLLM（法学修士課程）を確立・支援するため、基盤となるシニアデータエンジニアリングチームを構築しています。このチームは、データの収集、事前学習と微調整のための準備、そしてサービス提供とモニタリングに至るまで、LLMライフサイクル全体に不可欠な堅牢なデータインフラストラクチャの設計、構築、維持において重要な役割を担います。MLエンジニア、データサイエンティスト、研究者と緊密に連携し、データの品質、アクセス性、そしてスケーラビリティを確保することで、社内LLMイニシアチブの成功とパフォーマンスに直接的な影響を与えます。
どんな仕事か: 部門概要
楽天グループ株式会社のAI研究開発拠点である楽天技術研究所（RIT）は、東京、シンガポール、ボストン、サンマテオ、ベンガルール、パリにまたがるグローバルな研究拠点ネットワークです。機械学習、ディープラーニング、生成AIに重点を置き、コアAI技術の先駆的な進歩に取り組んでいます。RITの研究者は、大規模言語モデル、インテリジェントエージェントシステム、その他の最先端アプリケーションのユースケースを積極的に研究し、楽天の多様なエコシステム全体にわたるイノベーションを推進しています。

ポジションの詳細
LLM 向けデータパイプライン開発:
LLMの事前学習、微調整、評価に不可欠な多様なデータセットの取り込み、変換、読み込みを行うための、拡張性、信頼性、効率性に優れたデータパイプライン（ETL/ELT）を設計、開発、保守します。これには、構造化データ、半構造化データ、非構造化テキストデータが含まれます。

高品質なデータセットの作成とキュレーション：
重複排除、ノイズ削減、PII マスキング、トークン化、大規模テキストコーパスのフォーマットなど、データのクリーニングと前処理のための高度な手法を実装。
データの拡張や合成など、LLM トレーニング用のデータセットを拡張および強化する方法を検討して実装します。
厳格なデータ品質基準を確立して施行し、自動データ検証チェックを実装し、データのプライバシーとセキュリティのコンプライアンス (GDPR、CCPA など) を確保。

データジョブ管理:
LLM 開発ライフサイクル全体で使用されるデータセットのデータのバージョン管理、系統追跡、再現性のための堅牢なシステムを確立します。
データパイプライン内のデータ関連のパフォーマンスのボトルネックを特定して解決し、データの保存、取得、処理を最適化して効率とコスト効率を高めます。

データインフラストラクチャとオーケストレーション:
オンプレミスとパブリッククラウド環境の両方で、LLM データ用に特別に設計されたスケーラブルなデータウェアハウスとデータレイクを構築および維持します。
LLM データセットの準備のための複雑なデータワークフローを自動化および管理するために、データオーケストレーションツール (Apache Airflow、Prefect、Dagster など) を実装および管理します。
求められるスキルは: 必須必須資格:
- コンピューターサイエンス、データサイエンス、エンジニアリング、または関連する定量的分野の学士号または修士号を持ち、データエンジニアリング分野で 3 年以上の専門経験があり、特に大規模なテキスト/画像/音声データセットを含む大規模な機械学習またはデータサイエンスイニシアチブのデータパイプラインの構築と管理に重点を置いている。
- 事前トレーニング、微調整、評価データセットなど、大規模言語モデル (LLM) に特化したデータエンジニアリングの直接的な経験。
- 大量のテキストコーパスを前処理する際の一般的な課題と手法（ノイズの処理、重複排除、PII の検出/マスキング、大規模なトークン化など）に関する知識。
- データのバージョン管理および系統管理ツール/プラットフォーム (例: DVC、Pachyderm、LakeFS、または MLflow などの MLOps プラットフォーム内のデータバージョン管理機能) の使用経験。
- データの読み込みと準備の観点からのディープラーニングフレームワーク (PyTorch、TensorFlow、JAX など) に関する知識。
- データ注釈ワークフローとパイプラインの設計および実装の経験。
- Python に非常に堪能で、そのデータエコシステムに関する豊富な経験があること。
- SQL に精通しており、データウェアハウスの概念、データモデリング、スキーマ設計を十分に理解していること。

その他の情報:
英語資格に関する追加情報
英語: 流暢
雇用形態は: 正社員
どこで働くか: 東京都
給与はどのくらい貰えるか: 900万円～ 1149万円

データエンジニア、法学修士 - 楽天テクノロジー研究所（Mgrクラス）

データベースエンジニア