掲載期間25/11/30~25/12/13 求人No.GRAND-251014KNDD

データエンジニア、法学修士 - 楽天テクノロジー研究所(Mgrクラス)

データベースエンジニア

年収900万円~1149万円
海外展開あり(日系グローバル企業)上場企業大手企業新規事業・新サービス海外出張海外折衝土日祝休みポテンシャル採用(未経験可)CxO候補海外転勤年収600万以上インセンティブ制度ストックオプションありフレックス勤務リモートワーク可能育児支援制度
募集情報
なぜ募集しているのか
弊社からの入社実績20名以上あり 部門強化のため増員
退職金制度あり 平均残業20~30時間程度
平均年齢34.3歳 平均年収7,740千円

採用理由
フィンテック、予約サービス、Eコマースといった重要なセクターにおいて、業界をリードするLLM(法学修士課程)を確立・支援するため、基盤となるシニアデータエンジニアリングチームを構築しています。このチームは、データの収集、事前学習と微調整のための準備、そしてサービス提供とモニタリングに至るまで、LLMライフサイクル全体に不可欠な堅牢なデータインフラストラクチャの設計、構築、維持において重要な役割を担います。MLエンジニア、データサイエンティスト、研究者と緊密に連携し、データの品質、アクセス性、そしてスケーラビリティを確保することで、社内LLMイニシアチブの成功とパフォーマンスに直接的な影響を与えます。
どんな仕事か
部門概要
楽天グループ株式会社のAI研究開発拠点である楽天技術研究所(RIT)は、東京、シンガポール、ボストン、サンマテオ、ベンガルール、パリにまたがるグローバルな研究拠点ネットワークです。機械学習、ディープラーニング、生成AIに重点を置き、コアAI技術の先駆的な進歩に取り組んでいます。RITの研究者は、大規模言語モデル、インテリジェントエージェントシステム、その他の最先端アプリケーションのユースケースを積極的に研究し、楽天の多様なエコシステム全体にわたるイノベーションを推進しています。

ポジションの詳細
LLM 向けデータ パイプライン開発:
LLMの事前学習、微調整、評価に不可欠な多様なデータセットの取り込み、変換、読み込みを行うための、拡張性、信頼性、効率性に優れたデータパイプライン(ETL/ELT)を設計、開発、保守します。これには、構造化データ、半構造化データ、非構造化テキストデータが含まれます。

高品質なデータセットの作成とキュレーション:
重複排除、ノイズ削減、PII マスキング、トークン化、大規模テキスト コーパスのフォーマットなど、データのクリーニングと前処理のための高度な手法を実装。
データの拡張や合成など、LLM トレーニング用のデータセットを拡張および強化する方法を検討して実装します。
厳格なデータ品質基準を確立して施行し、自動データ検証チェックを実装し、データのプライバシーとセキュリティのコンプライアンス (GDPR、CCPA など) を確保。

データジョブ管理:
LLM 開発ライフサイクル全体で使用されるデータセットのデータのバージョン管理、系統追跡、再現性のための堅牢なシステムを確立します。
データ パイプライン内のデータ関連のパフォーマンスのボトルネックを特定して解決し、データの保存、取得、処理を最適化して効率とコスト効率を高めます。

データ インフラストラクチャとオーケストレーション:
オンプレミスとパブリック クラウド環境の両方で、LLM データ用に特別に設計されたスケーラブルなデータ ウェアハウスとデータ レイクを構築および維持します。
LLM データセットの準備のための複雑なデータワークフローを自動化および管理するために、データオーケストレーションツール (Apache Airflow、Prefect、Dagster など) を実装および管理します。

求められるスキルは
必須 必須資格:
- コンピューターサイエンス、データサイエンス、エンジニアリング、または関連する定量的分野の学士号または修士号を持ち、データエンジニアリング分野で 3 年以上の専門経験があり、特に大規模なテキスト/画像/音声データセットを含む大規模な機械学習またはデータサイエンスイニシアチブのデータパイプラインの構築と管理に重点を置いている。
- 事前トレーニング、微調整、評価データセットなど、大規模言語モデル (LLM) に特化したデータ エンジニアリングの直接的な経験。
- 大量のテキストコーパスを前処理する際の一般的な課題と手法(ノイズの処理、重複排除、PII の検出/マスキング、大規模なトークン化など)に関する知識。
- データのバージョン管理および系統管理ツール/プラットフォーム (例: DVC、Pachyderm、LakeFS、または MLflow などの MLOps プラットフォーム内のデータ バージョン管理機能) の使用経験。
- データの読み込みと準備の観点からのディープラーニング フレームワーク (PyTorch、TensorFlow、JAX など) に関する知識。
- データ注釈ワークフローとパイプラインの設計および実装の経験。
- Python に非常に堪能で、そのデータ エコシステムに関する豊富な経験があること。
- SQL に精通しており、データ ウェアハウスの概念、データ モデリング、スキーマ設計を十分に理解していること。

その他の情報:
英語資格に関する追加情報
英語: 流暢
雇用形態は
正社員
どこで働くか
東京都
給与はどのくらい貰えるか
900万円 ~ 1149万円
会社概要
社名
楽天グループ株式会社
事業内容・
会社の特長
インターネットサービス
市場事業
トラベル事業
その他、国内インターネットサービス
海外事業等

金融サービス
クレジットカード事業
銀行事業
証券事業
電子マネー事業等

その他
通信事業
プロスポーツ事業等
設立
1997年2月7日
資本金
452,647百万円(2024年12月31日現在)
従業員数
単体:9,885名  連結:29,334名(2024年12月31日現在)
取扱い紹介会社
株式会社グランディール
厚生労働大臣許可番号:06-ユー300050
紹介事業許可年:2016年
登録場所
株式会社グランディール
〒150-0031 東京都渋谷区桜丘町13-4 アロマ桜丘4F
掲載中の求人
現在3955件の求人を掲載しています。
最近ご覧になった求人に基づいたおすすめの求人
興味あり
興味ありしました
若手ハイキャリアのスカウト転職ならアンビ
アンビは若手ハイキャリアのためのスカウト転職サービス。年収500万円以上の案件が多数。応募前に合格可能性を判定できる機能や、職務適性がわかるツールなど独自機能が充実。大手からスタートアップ・行政など、ここにしかない募集も。
若手ハイキャリアのスカウト転職