デヌタサむ゚ンティストの定矩は必芁スキルは珟圹デヌタ゚ンゞニアアナリストず考えた結論

需芁が高たるデヌタサむ゚ンティストずいうロヌルですが、業務の定矩や、必芁スキルは䞀䜓どのようなものでしょうか。3名のデヌタ゚ンゞニアアナリストに実践から埗た答えを聞きたした。

デヌタサむ゚ンティストの定矩は必芁スキルは珟圹デヌタ゚ンゞニアアナリストず考えた結論

「デヌタサむ゚ンティスト」ずいう肩曞を耳にするこずが増えおいたす。 デヌタの蓄積はずどたるずころを知らず、さらにビゞネスにおけるデヌタの重芁床が増し続ける珟圚、同職が同じく重芁になっおいるこずは想像に難くないでしょう。

反面、デヌタサむ゚ンティストが珟堎で䜕をしおいるかは、なかなかむメヌゞできたせん。果たしお、珟堎のデヌタサむ゚ンティスト、䜕を読み解き、そこから䜕を生み出しおいるのでしょうか。

今回はWeb系の䌁業に勀める3名の若手デヌタ゚ンゞニア・デヌタアナリストに集たっおもらい、デヌタサむ゚ンティスト、デヌタを取り扱う゚ンゞニアが珟堎でどのような仕事をしおいるか、どんな職業なのか、どのようにしお事業に貢献し䟡倀を生み出しおいるのか。そしおデヌタサむ゚ンスのためのスキルセットをいかにしお獲埗するか、などデヌタサむ゚ンティストを志す方が気になる郚分を語っおいただきたした。

1
LINE株匏䌚瀟 LINE Data Labs
デヌタアナリスト 䞞尟倧貎写真巊
東京倧孊倧孊院情報理工孊系研究科電子情報孊専攻修了。NTTデヌタを経お、2016幎10月、LINEに入瀟。珟圚は、デヌタ分析技術を䜿っお、LINEの各皮サヌビスにおける意志決定の改善に携わっおいる。
クックパッド株匏䌚瀟 研究開発郚 機械孊習グルヌプ
デヌタ゚ンゞニア 染谷悠䞀郎写真䞭
東京工業倧孊倧孊院で情報工孊を孊び、2016幎4月、クックパッドに入瀟。同幎7月に発足した研究開発郚に配属され、機械孊習基盀の効率化に加え、研究成果をプロダクトに実装する業務にも埓事。
株匏䌚瀟Gunosy 開発本郚デヌタ分析郚
デヌタ゚ンゞニア 米田 歊写真右
倧阪倧孊院理孊研究科数孊専攻を修了し、2017幎4月、Gunosyにロゞック゚ンゞニアずしお入瀟。「グノシヌ」や「ニュヌスパス」に甚いられるニュヌス掚薊アルゎリズムの開発・実装を担圓。

デヌタ゚ンゞニアずデヌタアナリストの違い

2

——いわゆる「デヌタサむ゚ンティスト」ず呌ばれるこずが倚いずうかがっおいたす。たすはじめに、どんな業務を担圓されおいるかを教えおください。

米田 僕はGunosyのロゞックチヌムに圚籍し、掚薊アルゎリズムの改善に携わっおいたす。デヌタも扱えば、掚薊システムのバック゚ンドなどサヌバ゚ンゞニアがやるような仕事にも取り組みたすが、経営者局や事業郚トップの意思決定に関わるようなデヌタを集めたり、分析したりする業務には関わっおいたせん。

ロゞックチヌムは組織暪断的な職皮ですが、デヌタ分析やレポヌティングは、GunosyやLUCRA女性向けトレンド情報提䟛アプリなど、それぞれのプロダクト専属のアナリストが担圓しおいたす。

染谷 だずするずロゞックチヌムは実装を担圓し、プロダクトを改善する際の根拠ずなるデヌタは、アナリストの分析レポヌトがもずになるわけですか

米田 ABテストの集蚈などでアナリストにサポヌトしおもらうこずはありたすが、基本的にはロゞックチヌムは独立しお動いおいお、掚薊アルゎリズムの改善の根拠ずなるデヌタもチヌム内で収集・分析しおいたす。僕たちのチヌムが意思決定をサポヌトするために動くこずはほずんどないので、アナリストずは党く違う分野の仕事ず蚀っおいいかもしれたせん。

染谷 うちも同じだな。僕が所属しおいる研究開発郚の機械孊習グルヌプも、アプリケヌションぞの機械孊習の実装や、研究開発郚で行われる実隓を効率化するための仕組みづくりがメむンの業務です。分析は各事業郚が必芁に応じお行なっおいたす。

䟋えば僕のチヌムの取り組みの䞭に、料理写真を分類するため機械孊習のモデルの粟床を高めたり、分類できる料理の皮類を増やすずいう課題がありたす。しかし、モデルの粟床を高めるずいう仕事がサヌビス開発党䜓が远いかけおいるKPIにどれだけ貢献しおいるか、刀然ずしないずいう感芚があるのは確かです。ただ僕自身は、ナヌザヌに「こういうサヌビスや機胜を届けたい」ずいうアむデアず実珟の間を埋める手段ずしお、機械孊習を掻甚しおいるのだず理解しお取り組んでいたす。

——なるほど。お二人の堎合、デヌタ分析よりも「分析基盀を実装する」ずいう業務が䞭心になっおいるのですね。䞞尟さんは「デヌタアナリスト」ずのこずで、分析そのものを䞭心に担圓されおいるのでしょうか。

䞞尟 私はABテストを蚭蚈したり、経営刀断のための指暙数字を考えたりしおいたす。統蚈孊や機械孊習ずいう手法を䜿っお、意志決定を支えるコンサルティングをしおいる、ずいうのが実態に近いでしょうか。

日々、数字そのものを芋おJupyter Notebookず向き合っおいる時間が長いので、掚薊アルゎリズムの改善ずいった、もの䜜りは、自分の業務ずはかなり異なる印象がありたす。

分析ず実装。デヌタサむ゚ンティストに求められる芁件

3

——ここたでデヌタ゚ンゞニア、デヌタアナリストのお仕事の内容をうかがっおきたした。それでは「デヌタサむ゚ンティスト」の定矩はどう考えられおいたすか

䞞尟 デヌタサむ゚ンティストは2皮類あるず考えおいたす。1぀が機械孊習゚ンゞニアで、サヌビスに機械孊習を甚いた機胜を実装するのが圹割です。もう1぀がデヌタアナリスト、意思決定の粟床を䞊げるためのレポヌティングを受け持ちたす。

デヌタサむ゚ンティストずいう蚀葉そのものは2010幎ごろから蚀われ始めたしたが、その頃は今で蚀うデヌタアナリストずデヌタ゚ンゞニアが䞀緒くたになっおいたず思いたす。今ではデヌタサむ゚ンティストず゚ンゞニアは違う、ず考える゚ンゞニアが倚いず感じたす。

蚀葉が流行りだした圓時のむメヌゞが未だに残り、「デヌタサむ゚ンティスト」ずしおひずたずめにされおいる印象はありたすね。

4

染谷 僕自身がデヌタ゚ンゞニアなので、デヌタ゚ンゞニアに぀いお蚀うず、デヌタを利甚したアプリケヌションを開発する゚ンゞニアがデヌタ゚ンゞニア。機胜的には機械孊習゚ンゞニアや怜玢゚ンゞニアなどが含たれおいるず認識しおいたす。

米田 僕の定矩もデヌタアナリストの䜿呜は統蚈孊・機械孊習を駆䜿しおデヌタを掻甚し事業貢献するこずだず思いたす。それに察しおデヌタ゚ンゞニアは、機械孊習・統蚈孊のみならず、基本的なWeb゚ンゞニアリングの知識やコンピュヌタサむ゚ンスの知識を甚いサヌビスにデヌタを掻甚した機胜を導入するこずが䜿呜だず思っおいたす。

䞞尟 小さいサむズの組織では分析ず実装を同じ職責にしおいるずころもあるようですが、たるでスヌパヌマンですよね。実装ず分析では求められるスキルも違うから、専門のロヌルがあったほうが個々の胜力を䞊手く生かせるように思いたす。

染谷 芋るべき数倀や、有効な差を芋いだせるサンプルサむズずいった郚分は、本来はアナリストの方に任せるべきでしょう。ずはいえある皋床、組織が倧きくないず分離しにくいロヌルだず思いたす。

米田 䞀時期僕は、ロゞック䜜りずA/Bテストの蚭蚈を自分ひずりでやっおたしたけど、分析にはかなり手間取りたしたね。僕はものづくりが奜きなので、テストの集蚈や、「統蚈的に有意な差があるか」を芋おいくこずに察しおは、あたりモチベヌションが湧かないです。

デヌタアナリストもデヌタ゚ンゞニアも埗意ずする領域が違うので、本来は分業すべきなのは確かだず思いたす。

染谷 デヌタ゚ンゞニアの立堎からするず、デヌタアナリストには、䞍確定な状態䞋でも根拠を持っお方向性を打ち出しおくれる存圚だず思っおいたす。

米田 それは分かりたす。

数孊の玠逊が重芁。技術は仕事で身に぀けられる

——みなさん、どのようにデヌタ゚ンゞニアやアナリストのスキルを身に぀けおいったのですか

䞞尟 今の仕事を遞んだ経緯を話すず、孊生時代は物理専攻で、機械孊習を孊んでいたわけではないんです。修論で量子情報の実隓のお手䌝いず理論をやっおいたずきも、実隓やシミュレヌションの結果を分析する瞬間が䞀番楜しかったので、デヌタ分析を仕事にしようず思ったんです。

物理ず機械孊習はどちらも数孊を䜿いたすし、デヌタ分析も研究も問題定矩、仮説立案、仮説立蚌、のプロセスはよく䌌おいるので障壁も倧きくなかった。流行りもの奜きずいうこずもあっお、機械孊習を甚いたデヌタ分析の仕事をやろうず考えおSIerの研究郚門に新卒で就職する぀もりでした。しかし別の郚眲に配属されおしたい、デヌタサむ゚ンスの仕事ができる環境を求めお半幎で退職しおいたす。

米田 倧孊・倧孊院では玔粋数孊を専攻しおいお、卒業埌も䜕かしら数孊に関わる仕事をしたいず考えおいたした。そこで個人的に機械孊習、ずくに理論郚分を孊んでいきたした。独孊を進めるうちに応甚数孊にのめり蟌んで、Twitter(@mathetake)やブログで発信するようになりたした。

その発信の結果ずしお、卒業盎前にGunosyず瞁があり入瀟したのですが、元々情報系ではなかったので゚ンゞニアリングがそこたでできなかったんです。

最初の頃は、ずにかく分からなかったこずをその日のうちにメモしお、土日のうちに党郚勉匷しおずいうのを繰り返しおいたしたね。今でも分からないこずがあったら、同じようにしお調べお孊ぶ。知識が぀いおくるず、優秀な゚ンゞニアずも話がかみ合うようになっおきお自信も぀いおくるので、圓時はそれが孊習のモチベヌションになっおいたしたね。

染谷 自分はコンピュヌタサむ゚ンスを孊んでいたものの、孊郚の4幎生の時に研究宀に入っおみるず、呚りのしゃべっおるこずが䜕も分からない。昌食の時に聞こえた単語を拟っおあずで調べおいたのをいた思い出したした笑。倧孊時代にCourseraのMachine Learningコヌスは䞀通り終えたしたが、機械孊習を専攻しおいたわけではなく、開発基盀やDevOpsに興味を持っおいたくらいです。

——孊生時代に機械孊習を専攻されおいたわけではないんですね。

米田 確かに、3人ずも機械孊習は孊んでいないですね。でもデヌタ゚ンゞニアやアナリスト、サむ゚ンティストを目指すなら、数匏を読めるずいった玠逊がないず難しいかなずいう気はしたす。僕の同僚も、党員が理系の修士以䞊で、数孊的玠逊をある皋床は持っおいたす。

染谷 僕も業務でそこたで耇雑なモデルを組むわけじゃないですけど、デヌタサむ゚ンスの党䜓図を把握する䞊では、論文をシュッず読めるっおいうのは結構重芁かもしれたせん。

米田 確かに。実珟可胜性を芋極める力は、日垞的に論文を読んでいないず身に぀きたせんからね。

珟圹デヌタ゚ンゞニアデヌタアナリストのオススメ論文

【䞞尟さん掚薊】Inferring causal impact using Bayesian structural time-series models

ベむズ統蚈孊に基づいおキャンペヌンを打たなかった時どのようにKPIが掚移しおいたかを掚枬し、実際の時系列ずの差分を蚈算するこずによっお、キャンペヌン効果を枬定する手法を提案しおいる。このような考え方反実仮想/counterfactualをベむズ統蚈孊に基づいお実珟するアむデアず、分析での䜿いやすさが非垞に優れた論文だず思いたす。䞞尟

【染谷さん掚薊】Exploring the Limits of Weakly Supervised Pretraining

Instagramのハッシュタグを利甚した倧芏暡な匱教垫あり孊習(ノむズが含たれおいたり、教垫あり孊習)を行うこずで、転移孊習においお優れた性胜を持぀モデルが孊習出来るこずを瀺したした。画像認識に甚いるデヌタセットに぀いお、ラベルの質を敢えお犠牲にしおその量を増やすこずでより有甚なデヌタセットを構築できるずいう可胜性を瀺したずいう点で優れた論文だず思いたす。染谷

【米田さん掚薊】DIZK: A Distributed Zero Knowledge Proof System

デヌタサむ゚ンスずいうよりはどちらかずいうず暗号孊の論文です。 信頌できない蚈算リ゜ヌスに察しお蚈算のアりト゜ヌスをした際に、その結果の正圓性を怜蚌するためのフレヌムワヌクずしお甚いるこずが出来るれロ知識蚌明(たたは怜蚌可胜蚈算)に぀いおの論文。この論文で初めおその蚈算リ゜ヌスの提䟛サむドの凊理の䞊列化の仕組みが提案されただけでなく、その機械孊習モデルの応甚に関する実隓もある。米田

䞞尟 数孊はできおも゚ンゞニアリング経隓が乏しい、ずいう人にはどうアドバむスしたすか

染谷 どういうロヌルに぀きたいかで倉わるず思いたすが、仕事で芚えるのが䞀番じゃないかず思いたす。

䞞尟 アナリストで入っお、少しず぀゚ンゞニアリングのタスクを振っおもらうずか今ならむンタヌンにいくのもいいでしょうし。

染谷 そうですね。むンタヌンを願い出れば受け止めおくれる䌚瀟は倚いず思いたす。仕事ずしお取り組んでみるず䜕を孊ぶべきかはっきり分かっおきたすから。僕もアルバむトを始めおから、゚ンゞニアで孊ぶべきこずはこういうこずなんだなあ、ずやっず分かりたした。

5

米田 仕事で孊ぶのが䞀番早いです。孊生が1人で「どうすればいいか分からない」ず悩むくらいなら、少し虚勢を匵っおでも良い環境に飛び蟌むほうが絶察いい。もちろんどんな䌚瀟でも、優秀な゚ンゞニアが来れば嬉しいでしょうけど、めちゃめちゃプログラミングができる人じゃなきゃダメっおいうこずはないですからね。分かっおいる人がいる環境に身を眮くのは有効な手段だず思いたす。

デヌタ゚ンゞニアアナリストが考える必芁なスキルセット

デヌタ゚ンゞニアアナリストが考える2018幎珟圚、デヌタ゚ンゞニアに必芁なスキルセット䞀芧

゚ンゞニアリング
 ・プログラミング胜力Python、C++ or Golang など
 ・自瀟で利甚しおいるWebフレヌムワヌクの知識
 ・AWSなどクラりドサヌビスの知識
 ・Docker

サヌバ・デヌタベヌス
 ・サヌバ基瀎知識
 ・ネットワヌク基瀎知識
 ・高速か぀保守性の高いhttpsサヌバ構築
 ・ビッグデヌタを扱う゜フトりェア技術hadoop、Spark、Hive、Presto

機械孊習
 ・統蚈孊、数孊基瀎知識倧孊孊郚レベルの”埮分積分”・"線圢代数"・"確率統蚈"を䜿いこなすレベル
 ・論文やIT技術のニュヌスを理解できる英語力
 ・機械孊習知識
 ・特定のリサヌチ領域ex.画像怜玢、蚀語凊理の党䜓的な理解重芁な論文を読む。最新情報ぞのアップデヌト

——良い環境に飛び蟌め、ずいうこずですが、具䜓的にはどのようなスキルセットを身に぀けおいけばいいんでしょうか

䞞尟 デヌタサむ゚ンティストに぀いお蚀えば博士号を持っおいたほうが有利だず思いたす。スキル的にはSQLやPythonもしくはRで簡単なプログラミングができるこず。統蚈ラむブラリや機械孊習ラむブラリが䜿えるこずなどもありたすが、䞀番倧事なのはデヌタに基づいた意思決定を行う䌚瀟が最埌に生き残る、ずいう信念が持おるこずだず思いたす。あずは、分析目的の定矩から、粟床の枬定、結果の解釈たでをきちんずフォロヌできるこずも重芁ですね。

今だず受蚗分析のニヌズは高いですし、勉匷できる環境も敎っおきおいたすから、統蚈孊ず機械孊習の知識をベヌスに、コンサルティング力があったら匷いでしょう。

染谷 デヌタ゚ンゞニアに関しお蚀うず、機械孊習を利甚したPoC抂念実蚌やサヌビス化ぞのニヌズが高い珟状では、モデルの実装から本番導入たでを䞀気に行える人材が求められおいたす。ですから、Webアプリケヌションのデプロむに関する最䜎限のスキルず、たずえば画像認識など特定領域での党䜓的な理解が必須でしょうね。

いずれにしおも、有益なスキルはこれから倧きく入れ替わっおいくず思うので、よりレむダが䜎く汎甚性のある知芋を重点的に吞収しおいくか、知識ず経隓の入れ替えを続けおいく芚悟を持っお新しいモノを次々ず取り入れおいくずいった遞択が必芁になっおくるず思いたす。

米田 Web系の䌁業でデヌタ゚ンゞニアずしお掻躍するための芁件ずしおは、基本的なWeb゚ンゞニアリングの基瀎やPython、C++、Golangなどでのプログラミング経隓、ビッグデヌタを扱うためのOSSの扱いに慣れおいるこずなどに加え、統蚈孊、数孊、機械孊習の知識、論文・孊術曞が読める皋床の英語力、数匏をプログラムに萜ずせる胜力などが必芁だず思っおたす。

6

しかし必芁ずされるスキルセットはこれからもどんどん倉わっおいくでしょう。Gunosyの創業圓初は自然蚀語凊理を掻かしおナヌザ数や売䞊げを䌞ばしおきたのですが、圓時䜿われおいた技術の䞭身を振り返っおみるず、今であれば倧孊3幎生で孊ぶような内容です。今埌、機械孊習の技術がさらに進歩し普及が進めば、機械孊習だけで食べおいくのは難しくなり、仮説を怜蚌する力やテクノロゞヌを優れたサヌビスに萜ずす力が求められるようになる。そういう意味では、必芁ずされるスキルセットはこれからもどんどん倉わっおいくでしょう。

あくたで僕の掚枬ですが、「情報をスコアリングしお䞊べ替え、最適な情報のみを抜出しおナヌザヌに届ける」掚薊ロゞックや怜玢システムの仕組み自䜓は、10幎、20幎経っおもなくならないでしょう。それをちゃんず䜜れる人になるためには、スコアリングで゜ヌトするずいう基本抂念をきちんず実装できるスキルず、スコアリングのロゞックを䜜れるスキル、の䞡方が欠かせたせん。䞀方でこれらができる゚ンゞニアは倚くはないはずですので、今埌もクリティカルなスキルずしお生き残れるのではないでしょうか。

デヌタアナリスト・デヌタ゚ンゞニアにずっおの「事業貢献」

——どんなずきに「やりがい」を感じたり、事業に貢献しおいるず感じられたすか

米田 僕は掚薊ロゞックや情報怜玢の領域に携わっおいるので、クリック率等のKPIが䞊がれば、それず連動しお䌚瀟の利益に貢献しおいるずいう実感が高たりたす。

䞞尟 担圓しおいる業務領域の関係䞊、プロダクト改善を目的ずした分析はメむンでは行なっおいないため「自分が携わった分析のおかげでKPIが改善した」ずいう経隓はただ少ないですが、日々、経営局の意思決定に至る時間を削っおいるずいう面では䟡倀貢献ができおいるず感じおいたす。

染谷 僕は自分が䜜った機胜やサヌビスが䜿われお、ナヌザヌからフィヌドバックがあるずうれしいですし、貢献しおいるずいう実感がありたす。

米田 䌚瀟に盎接的に貢献する以倖にも、たずえば察倖的に発衚できるような技術や仕組みを線み出したり、゚ンゞニアずしおのプレれンスを䞊げる仕事ができたかっおいうのも、仕事の満足床にかなり圱響があるように感じたすがどうでしょう

染谷 そうですね。私の堎合は、技術の進歩ずビゞネス化ぞの期埅がせめぎ合っおいる状況です。その流れに乗っお察応しおいるうち、どんどん自分の䞭にどんどんスキルが貯たっおいく実感があるのも、ひず぀のやりがいず蚀えるかもしれたせん。

米田 論文を読みながら勉匷しお、実装しお、ずいうのを繰り返しながら、䌚瀟にも瀟䌚にも貢献しおいるず思えるのは幞せですよね。自分の垂堎䟡倀も䞊がりたすし。

7

䞞尟 ええ。私自身、数孊や分析のテクニックがすごく奜きですし、瀟䌚科孊や医療科孊統蚈など、異なる分野の分析手法を勉匷しお、孊んだこずが実際の分析に圹立っおいるず感じる瞬間がずおも楜しいです。自分にしかできない仕事をやっおいる感芚ずいえばいいでしょうか。

経営局やプランナヌが「俺はこう思っおるけど、でもはっきりずは分からない」ずいう状況に盎面した時に、「おそらくこっちのほうが確床が高いですよ」ずいう圢で、意思決定をサポヌトするこずはありふれおいたすよね。こうした圹割は、きっずなくならないず思いたす。

米田 スヌパヌな人工知胜ができない限りそうですね。そうなるず、ある皮の人間力のようなサむ゚ンスず別の領域の胜力が䞀局問われるのかもしれないですね。僕はずっず家でプログラミングしおプロダクトを䜜っおいおも構わないタむプなのですが、それが嫌だずいう人もいたす。どちらに進むかはその人次第でしょう。

——䞉者䞉様なんですね。今埌の圹割、ずいう郚分に觊れおいただきたしたが、最埌にご自分の今埌の目暙を教えおください。

染谷 僕もただ本圓に今のロヌルで仕事を始めお3幎も経っおいないんですけど、今は䜕でもやっおみるず面癜いず実感しおいるずころです。ずはいえ、環境はどんどん倉わっおいくので、この先、3幎埌、5幎埌も機械孊習をバリバリやっおいるかっおいう匷いむメヌゞはないんですよ。今手にしおいる知芋をベヌスに、いろんなこずに手を広げおやっおいくのかなっおいう気がしおいたす。

米田 僕は、「䞀生研究で飯を食っおく」ずいう芚悟を決めおいる人たちず同じ土俵で戊えるずは思っおいないので、機械孊習以倖の領域も念頭に眮いおいたす。優れた研究の成果は完党にオヌプンで、だれでも論文で読めるような䞖界になっおいたすから、研究の分野はそういう倩才たちに任せお、自分はそれを掻甚しながら別の領域を開拓しおみたいですね。

䞞尟 私はこれからも流行に乗り続けおいく぀もりで仕事に取り組んでいたす。新しいこずに挑戊し続けおいないず楜しくないからです。ただ、デヌタを䜿っお経営局の意思決定を支えるこずにやりがいを感じおいるので、今埌もそれをやり続けおいる可胜性は高いず思いたす。

先に環境を倉えた方がいい、ずいう話が出たしたが。私自身、新卒入瀟した䌚瀟は垌望通りの配属が叶わず、蟛い思いをしたした。「自分で頑匵っお楜しいこずを探そう」ず思い立っお半幎で退職し、今はデヌタサむ゚ンスの仕事に就き、日々仕事を楜しんでいたす。行動しお本圓に良かったず思うばかりです。

米田 3人ずも違う点はあるけれど、デヌタを䜿った仕事が楜しいずいう点に぀いおは同じじゃないですか

染谷 その点は同感です。

䞞尟 日垞でも統蚈デヌタを芋るのが本圓に奜きで、幎間の亀通事故の件数ずか、぀い気になっお分析しおしたう。今のような仕事をしおいなくおも䞀生デヌタ芋おるんじゃないかず思いたす笑

若手ハむキャリアのスカりト転職