- どんな仕事か
-
運用の最前線で課題と向き合いながら、SREのあり方そのものをアップデートしていく仲間を募集しています。・AI Agentの開発を通した運用改善
運用データを活用した障害対応・判断支援の自動化
LLMを用いた運用ナレッジの整理・検索・活用の仕組みづくり
・サービス信頼性の向上
可用性・パフォーマンス・耐障害性を考慮したシステム設計・改善
障害発生時の原因分析および恒久対応の実施
・可観測性の設計・運用
メトリクス/ログ/トレースを含む可観測性全体の設計・改善
特定ツールに依存しない、可観測性の考え方・設計方針の整理
サービス特性に応じた監視・アラート設計および運用改善
運用データを活用した課題発見・障害予兆の検知
クラウド、オンプレ双方のオブザーバビリティツール基盤(Datadog/NewRelic/Prometheus)の構築・運用
・運用の標準化・自動化
手作業に依存しない運用フローの設計・実装
Runbookや運用手順の整備・改善
・コスト最適化の推進
クラウドリソースの利用状況の可視化
コスト削減施策の立案・実装・全社展開
・事業部・開発チームとの協業
各事業のSRE/開発チームと連携した課題整理・改善提案
共通基盤・共通指針の整備による組織全体の信頼性向上 - 求められるスキルは
-
必須 ・Webサービスにおける 信頼性・可用性を意識した運用経験
・障害や性能劣化に対し、事象の切り分けから恒久対応まで主導した経験
・メトリクス/ログ/トレースを用いた 状態把握および原因分析の経験
・監視・アラートを運用負荷の観点で設計・改善した経験
・運用上の判断や対応を 再現可能な形で言語化・定着させた経験
・アプリケーションまたは運用ツールの開発経験歓迎 SRE・基盤領域
・SREまたはそれに準ずる立場での業務経験
・クラウド環境における 設計・運用・変更管理の経験
・Infrastructure as Code を用いた 構成管理・運用の体系化
・可観測性基盤の設計・刷新・改善に関わった経験
AI・LLM活用
・LLMやAIを用いた 業務改善・運用効率化の実践経験
・運用データ(ログ・メトリクス等)を入力としたAI Agentの開発経験
・分析・要約・判断支援の仕組みを設計・実装した経験
・APIやSDKを用いて、AIを既存システムや運用フローに組み込んだ経験 - 雇用形態は
- 正社員
- どこで働くか
- 東京都
- 給与はどのくらい貰えるか
- 800万円 ~ 1499万円
掲載期間25/12/30~26/01/12
求人No.WTH-s001





