- どんな仕事か
-
### 業務内容
- *評価メトリクスの研究開発*
* LLM-as-Judge の校正手法の研究・実装 (rubric 設計、バイアス検出、proper scoring rules)
* 評価ベンチマークの設計・構築・妥当性検証 (construct validity、contamination detection)
* 報酬モデリング / preference learning の評価への応用研究
* 評価メトリクスの選定・設計 (win rate、task success、factuality、harm detection)
* 評価セット (合成データ + 実ログ) の設計・構築・メンテナンス
- *自動評価パイプラインの設計・構築*
* スケーラブルな自動評価パイプラインの設計・実装
* CI/CD への評価パイプライン組込みと品質ゲートの構築
* エージェント評価ハーネスの設計 (マルチターン・ツール利用・ロングコンテキスト対応)
* 評価パイプラインの再現性・信頼性の担保
- *安全性・品質検証*
* 自動レッドチーミング (automated adversarial testing) の研究・実装
* 安全性 / ポリシー準拠の検証フレームワーク構築
* ハルシネーション検出・校正手法の研究・実装
* プロンプト / ツール回帰テストの設計・実行
- *統計分析・実験設計*
* 統計的実験計画 (A/B テスト、有意差検定) の設計・分析
* 品質トレンドの可視化・回帰検出の自動化
* 品質レポート作成と改善提案
* 評価シグナルの研究・開発チームへのフィードバック - 求められるスキルは
-
必須 - コンピュータサイエンス、ソフトウェア工学、人工知能、機械学習、数学、物理、計量心理学などの関連分野における修士号以上、または同等の実務経験
- MLエンジニア / DS / リサーチエンジニア / ML評価関連職種の実務経験 3年以上
- LLM / 生成AIの評価手法に関する深い知識
- 統計学・実験計画法の実践的知識
- Pythonでの ML / 評価パイプライン構築経験
- 機械学習フレームワーク(PyTorch, JAX, TensorFlow等)の実務経験
- 評価メトリクスの設計・実装経験
- 言語レベル : いずれか必須
- 日本語 : Fluent (プロダクト開発において齟齬なく議論を行えるレベル)
- 英語 : ビジネスレベル歓迎 【歓迎スキル・経験】
- ML / NLPトップカンファレンス(NeurIPS, ICML, ICLR, ACL, EMNLP等)での論文発表経験
- 報酬モデリング / preference learning(RLHF, DPO等)の研究・実装経験
- LLM-as-Judge の校正・rubric設計の経験
- AI安全性・Responsible AI・レッドチーミングに関する知識・経験
- ベンチマーク設計・妥当性検証(IRT, construct validity)の経験
- マルチエージェント・ワークフロー / ツール利用 / ロングコンテキストの評価経験
- 大規模データ処理(Spark / BigQuery等)の経験
- CI/CDパイプラインへのML/評価パイプライン組込み経験
- 論文読解・再現実装の能力
- 英語での技術コミュニケーション能力 - 雇用形態は
- 正社員
- どこで働くか
- 新宿区
- 勤務時間は
- 10:00~19:00/※8時間
- 給与はどのくらい貰えるか
- 800万円~1600万円 ※提示年収は、今までのご経験や選考の中でのご評価によって決定いたします。最低年収を下回る可能性もございますので、あらかじめご了承ください。
- 休日休暇は
- 土曜日,日曜日,祝日/完全週休二日制(土日祝)、年次有給休暇、夏季休暇(3日)、年末年始休暇(12月31日~1月3日)、慶弔休暇
- どんな選考プロセスか
- 書類選考 → コーディングテスト → 面接(4~5回)→ 内定
NEW
掲載期間26/04/21~26/05/04
求人No.CDS-644247





