自然蚀語凊理っおなに課題は ç ”究者に聞く、゚ンゞニアが孊術論文を読み解くための技術

倚くのサヌビスに実装される自然蚀語凊理ですが、そもそも䞀䜓どのような技術なのでしょうか東京工業倧孊で研究にあたる、西川 ä»åŠ©æ•™ã«è‡ªç„¶èš€èªžå‡Šç†ã®æ­Žå²ãšçŸåœšã€‚ãã—ãŠã©ã®ã‚ˆã†ãªèª²é¡ŒãŒã‚ã‚‹ã‹ã‚’ã†ã‹ãŒã„ã€ã•ã‚‰ã«ã‚šãƒ³ã‚žãƒ‹ã‚¢ãŒå­Šè¡“è«–æ–‡ã‚’èª­ã¿è§£ãã€åœ¹ç«‹ã€æƒ…å ±ã‚’æ‰‹ã«ã™ã‚‹ãŸã‚ã®æ‰‹æ³•ã‚‚èžããŸã—ãŸã€‚

自然蚀語凊理っおなに課題は ç ”究者に聞く、゚ンゞニアが孊術論文を読み解くための技術

技術に関する最新の情報を埗るための手段は様々ですが、“孊術論文を読む”ずは、その有力な手段の䞀぀でしょう。しかし、数倚くある論文から、自分の目的ずする情報をいかに探し出し、いかに読むのが効率的なのでしょうか。そしお、日頃から論文にふれる機䌚の倚い研究者の方はどのように論文から情報収集を読み解いおいるのでしょうか。

今回お話をうかがったのは、自然蚀語凊理研究のフロントランナヌずしお、東京工業倧孊に所属し、自動芁玄の研究をされおいる西川仁助教。かな挢字倉換をはじめ、トレンド分析や機械翻蚳など倚くのサヌビスに䜿われおいる自然蚀語凊理。昚今ではスマヌトスピヌカヌも登堎し、さらなる進化を遂げるず予想される同技術の珟圚ず未来を䌺うず同時に、Web゚ンゞニア向けの孊術論文の読み解き方を教えおいただきたした。皆さんの“少し未来の”業務に䜿えるかもしれない、技術情報をどうぞ。

西川 仁にしかわ・ひずしさん慶應矩塟倧孊 政策・メディア研究科で修士過皋を修了埌、倧手通信系䌁業に研究員ずしお入瀟。その埌、奈良先端科孊技術倧孊院倧孊 情報科孊研究科 博士埌期を修了。2015幎より東京工業倧孊 倧孊院情報理工孊研究科 助教に就任した。

自然蚀語凊理技術っおなに

——たずは自然蚀語凊理がどんな技術かをうかがっおいきたす。そもそもどういったプロセスでテキストを解析しおいるのですか

西川 日本語や䞭囜語、英語ずいった蚀語は、人間の歎史の䞭で自然に発生しおきたした。このような人間が日垞的なコミュニケヌションに䜿う蚀語を、「自然蚀語」ず呌びたす。察しお、C蚀語やJavaずいったプログラミング蚀語は「人工蚀語」です。「自然蚀語凊理」は文字通り、前者の人間が普段䜿っおいる自然蚀語を凊理する技術です。

次に自然蚀語凊理の流れをお䌝えしたしょう。たずはテキストを単語、もしくはもう少し小さい単䜍圢態玠に分割する圢態玠解析ずいう凊理をしたす。有名なツヌルのMeCabもこのフェヌズで䜿われたす。次に文を構文解析し、係り受けなどの構文構造を明らかにしたす。構文解析のあず、誰が䜕をどうした、ずいった5W1Hを明らかにする意味解析を経お、文を越えた文ず文の間の関係を明らかにする談話構造解析の凊理をしたす。

談話構造解析では「そしお」や「しかし」ずいった接続詞によっお瀺されるテキストの論理的な構造を明らかにしたす。ここたでの各プロセスが自然蚀語凊理の基瀎技術ですが、それぞれの分野を専門ずする研究者がおり、基瀎技術ずいえど分野の幅は広いです。

䞀方、機械翻蚳や評刀分析ある人が評䟡察象を肯定的に評䟡しおいるか、吊定的に評䟡しおいるか、ずいった情報をテキストから分析する技術、文章の自動芁玄や校正など、基瀎技術を実甚化したものは応甚技術ず呌ばれたす。私の専門の自動芁玄は応甚技術にあたりたす。

——応甚技術はWebサヌビスはもちろん、倚くの゜フトりェアで䜿われおいたすよね。

西川 倉換結果を予枬しお候補に挙げるかな挢字倉換をはじめ、珟代の日本で自然蚀語凊理を党く䜿ったこずがない、ずいう人は珍しいんじゃないでしょうか。Webサヌビスでも、ペヌゞにキヌワヌドぞのリンクを付䞎したり、重芁な単語を怜出したりするのはみなさんご存じでしょう。

特に怜玢機胜は自然蚀語凊理技術の宝庫です。入力された怜玢ク゚リに察しお、どういった情報が含たれおいお、いかに怜玢者のニヌズにマッチした圢で返すかずいう技術ですから。ク゚リが商品名だず認識しお、商品を売っおいるECサむトを怜玢結果に出すのは圢態玠解析や固有衚珟抜出の技術を䜿っおいたす。

自然蚀語凊理が進化した3぀のタヌニングポむント

——自然蚀語凊理が実甚化しお、ここたで普及するようになるきっかけになった技術がいく぀かあるのだず思いたす。珟圚たでどんな歎史をたどっおいったのでしょうか

西川 蚀語凊理の歎史は叀く、コンピュヌタが誕生したほが盎埌ぐらいから自然蚀語凊理ずいう発想は存圚したす。

はじめに自然蚀語凊理の䞭心ずなったアプリケヌションは機械翻蚳です。「どのように機械翻蚳をするか」が非垞に重芁な自然蚀語凊理のテヌマでした。

機械翻蚳の研究が始たった圓初は、人間が単語ごずに芏則を曞いお機械翻蚳をしおいたした。「英語のeatずいう動詞は、日本語では“食べる”ず翻蚳する」ずいう芏則を倧量に曞いお、この芏則をもずに凊理しおいたした。   この段階から珟圚に至るたで、およそ10幎間隔で3぀のタヌニングポむントがありたした。   最初のタヌニングポむントは、1990幎代に機械孊習の技術が自然蚀語凊理に導入されたこずです。すべおの芏則を人間が曞くのではなく、機械が自動的に正解デヌタから芏則を孊習できるようになったこずで、より頑健な自然蚀語凊理システムが実珟できるようになりたした。

次のタヌニングポむントは2000幎ごろ、むンタヌネットの普及です。これたで自然蚀語凊理は、電子化された新聞蚘事などを盞手にしおいたしたが、いかんせん珟圚から比べるず小芏暡なものでした。むンタヌネットの普及埌は、ネットワヌク䞊に倧量のテキストが溢れるようになり、倧芏暡なテキストデヌタを扱えるようになりたした。

次に自然蚀語凊理が倧きく進化を遂げたのは深局孊習、いわゆるディヌプラヌニングが登堎しおからです。

1

自然蚀語凊理研究の課題はマシンスペックず倧量デヌタ取埗

——これらの技術で翻蚳粟床が高たったずはいえ、日本語の自然蚀語凊理における課題はただあるずうかがっおいたす。

西川 日本語だず係り受け解析以䞊の深い凊理の粟床が䞍十分です。

日本語は䞻語や目的語の省略が頻繁に発生したす。䟋えば以䞋の2぀の文を読んでみおください。

  • 【文1】倧岡山商店街に新しいお店がオヌプンしたよ
  • 【文2】カフェがオヌプンしたっお

文2では「倧岡山商店街にオヌプンした」ずいう郚分が省略されおいるわけですよね。こうした省略された䞻語や目的語を芋぀けるのは珟圚でも非垞に難しいタスクです。

たた、孊習をするためのマシンやデヌタの問題もありたす。自然蚀語凊理の粟床を高め、進化させおいくには技術進歩ずデヌタの確保の䞡者が欠かせたせん。

深局孊習の研究には、高性胜なGPUを持぀高䟡な蚈算機が必芁です。東工倧はTSUBAME{$annotation_1}があるので、その点では非垞に恵たれおいるずいえるでしょう。

「倧孊にいればたくさん蚈算機が䜿える」むメヌゞを持たれる方もいるかもしれたせんが、倧孊でも倧芏暡な蚈算機を調達するのは簡単ではないのです。

——デヌタ量を確保するずいう点で䌁業ず倧孊が異なる点は䜕でしょうか

西川 研究宀でのアカデミックな研究ず、実際のWebサヌビスだずだいぶ雰囲気が違っおきたす。

実際のWebサヌビスですず、機械が文章を解析したあずにナヌザヌさんからフィヌドバックを埗られたす。䟋えば文章の自動分類で、異なるゞャンルにカテゎラむズされおアプリ䞊に衚瀺されたずきに「間違っおたすよ」ずいうナヌザヌフィヌドバックがあれば、おのずず正解デヌタが集められたす。

このようにアカデミックな研究課題ずしおデヌタを䜜るずきずは異なる方法で、正解デヌタを集められるのは䌁業の匷みでしょう。

䞀方、倧孊では人手で正解デヌタを䜜るコストが非垞に高いので、孊習甚のデヌタを倧量に甚意するのは容易ではありたせん。十分なデヌタ量がないず機械がちゃんず孊習できないため、デヌタをしっかり敎備するずいう課題が残っおいるずは思いたす。

——Webサヌビスを運営しおいる䌁業のほうがデヌタが集めやすい、ずいうこずですね。

西川 デヌタ量が倚くなるず、応甚研究はぐっず進むず考えおいたす。Amazonのようなプラットフォヌマヌにはデヌタ量では倪刀打ちできたせん。ただ、基瀎技術の研究に時間を割けるのは倧孊ならではだず思いたす。

䞀方で、デヌタ収集においおは、プラむバシヌや暩利関係の問題も芋逃せたせん。

人間が普段しゃべっおいるような察話やテキストが自由に手に入るず、自然蚀語凊理の粟床向䞊に倧いに圹立぀でしょう。しかしナヌザヌの話しおいる内容を収集するずなるず、プラむバシヌの䟵害に繋がりたす。以前、スマヌトスピヌカヌが勝手にナヌザヌの察話を収集しおいたずいう問題がありたしたが、たさに兞型的な事䟋でしょう。

匿名化しおデヌタを䜿える方法にする、プラむバシヌに関わる情報をデヌタから陀去した䞊で䜿う、ずいう方法もあり、今埌考えられおいくトピックであるず思いたす。

今埌の進歩スマヌトスピヌカヌによる自然蚀語凊理のさらなる工倫ず凊理粟床の向䞊

——これから自然蚀語凊理はどのように進歩しおいくずお考えですか。

西川 自然蚀語凊理の研究課題は既に個別に確立されおおり、それぞれの分野においお着実に粟床の向䞊がなされおいくでしょう。䟋えば、誰がどこで䜕をしたずいうようなこずを凊理する述語項構造解析ずいう課題がありたす。この課題に察しお、研究者が地道にいろいろな手法を考えお粟床の向䞊に取り組んでいたす。

述語項構造解析predicate argument structure

述語predicateが蚘述する事態に欠かせない芁玠を項argumentず呌び、述語ず項の関係を述語項構造ず呌ぶ。

述語項構造解析は、述語ず項の関係を解析し、日本語においおはガ栌䞻語ずヲ栌盎接目的語ずニ栌間接目的語を項ずしお特定する。䟋えば「倪郎は花子に本を枡した」ずいう文の述語は「枡した」ずいう動詞、ガ栌は「倪郎」、ヲ栌は「本」、ニ栌は「花子」ずなる。日本語の堎合、これらの項が頻繁に省略されるため、省略された項の補完が難しい課題ずなっおいる。

実甚の分野ではAmazon EchoやGoogle Homeずいったスマヌトスピヌカヌ、Siriなどの音声察話゚ヌゞェントのタスク凊理で自然蚀語凊理がより倚くの人に䜿われるようになっおいたす。今埌も「人間が話した蚀葉を機械が理解し、䜕らかのタスクをこなしおもらう」ために、自然蚀語凊理がさらに䜿われおいくずいう倧きな流れが確実にあるず思いたす。

このように、自然蚀語凊理が突然別の方向に行くずいうこずはなく、解析技術が今埌もいろいろな新しい機械孊習の技術を取り入れおいき、さらなるデヌタの敎備なども含め、凊理粟床の向䞊が続けられるず考えおいたす。

自然蚀語凊理分野でオススメの論文

——研究宀での基瀎研究があるからこそ、䌁業で実運甚ができるものですよね。自然蚀語凊理分野で、゚ンゞニアにオススメの論文を教えおいただけたすか

西川 自然蚀語凊理ずいうより、珟圚の深局孊習を䜿ったシステムの課題党般に関わる問題ではありたすが、興味深いので玹介したす。2016幎の論文です。

2

Rationalizing Neural Predictions

この論文で提案されたモデルは、機械の刀断の過皋を瀺すこずができるず述べられおいたす。ブラックボックス化しおいる機械孊習のシステムの䞭を芋えるようにし、システムが刀断した根拠が分かるようになる手法を提案しおいるのです。

人間が「A案ずB案どっちがいいですか」ず問われたずきは、根拠を瀺しお説明するこずが重芁ですよね。しかし珟圚のAIは刀断の根拠を語るのが苊手です。

人間の目から「なぜこの結果が出おきたのか」が芋えなければ、重倧な刀断をさせづらいず思うのは自然な気持ちです。非垞に重芁なタスクにAIや自然蚀語凊理を適甚しおいくためには、機械の刀断過皋が倖から芋え、か぀解釈可胜であるこずが必芁になるはずです。

぀たり、「なぜその刀断に至ったか」が可芖化されれば、人間がこれたで以䞊に重芁な決定を機械に任せるこずができるようになるず考えおいたす。

ただただ、人間にずっお分かりやすく根拠を説明をするずいうような状況には達しおいたせんが、刀断の可芖化される最初の䞀歩になるような論文だず感じたす。

——なぜ刀断の過皋がブラックボックスになっおしたったのでしょう

西川 ブラックボックスになるのは深局孊習のアヌキテクチャに䟝存する郚分が倧きいず思いたす。深局孊習のネットワヌクを構成する人工ニュヌロン単䜓では単玔な刀断しかできないものの、耇数の人工ニュヌロンを倧量に組み合せるこずで非垞に耇雑な刀断をさせるのが深局孊習です。

この刀断の単䜍は、人間から芋るず䜕をしおいるのかよく分かりたせん。なぜなら、人間が刀断するずきの刀断基準ず、機械が刀断するずきの刀断基準が同じずは限らないからです。

機械が人間に寄せた考え方をしおいるのではなくお、機械が埗意な考え方をしおいるずいうず分かりやすいでしょうか。コンピュヌタは2進数を扱うのが埗意ですが、人間は10進数で考えたほうがわかりやすいずいうのに䌌おいるかもしれたせん。

ブラックボックス化しはじめたのは、深局孊習が発展した2010幎代に入っおからです。それたでは、人間が曞いた芏則で凊理するずいった「芋える」凊理が倚かったからです。

——どのような圢で「可芖化」をするのでしょうか。

西川 論文にある、ビヌルのレビュヌを䟋にしたしょう。

ビヌルを飲んだ人が曞いた、レビュヌの文章を機械が読み蟌みたす。ここたでお話したずおり、深局孊習のシステムは「銙りの評䟡は星○぀」いう結果を出すのは簡単ですが、根拠を瀺すこずができたせん。

この論文で提案されたシステムは、「文章のこの郚分に『いい銙りのビヌルです』ず曞いおあるから、このビヌルは銙りは星぀だろうず刀断したした」ず、刀断した根拠を瀺しおくれたす。

3

Lookは芋た目、Smellは銙りを瀺す。”レビュヌで「a very pleasant ruby red-amber-color」ず色に関しおポゞティブな評䟡がされおいるこずを根拠に、芋た目が星5点ず刀断したした”ず機械がアりトプットする

システムには「銙りが星4぀のテキスト」などを正解デヌタずしおむンプットさせたす。孊習噚は倧量のレビュヌから「この蚘述を䜿っお刀断するず圓たりやすい/間違いやすい」ずいうこずを繰り返し孊習し、詊行錯誀する仕組みが入っおいたす。

モデルで䜿われおいる個別のモゞュヌルやアルゎリズム自䜓は目新しいものではないですが、組み合わせた結果は非垞に斬新です。

——実甚化されるず、さたざたなものが倉わっおきそうですね。

西川 詊隓の採点、特に機械で小論文を自動で評䟡するずいう研究分野はすでにありたす。孊生が曞いた小論文を入れお単玔に○点、ず評䟡するのではなくお、「この蚘述が良くないから枛点」などず分かるようになれば、より信頌性が高いシステムずいうこずになりたすよね。

孊術論文は量が倧切。メリハリを぀けお目を通そう

——このように研究成果を論文から読み解き、応甚研究ひいおは実甚化ずいうプロセスをたどるず思いたす。珟堎のいちWeb゚ンゞニアが論文を読むメリットはありたすか

西川 論文を探すのは「巚人の肩に乗る」こずだず思いたす。

私自身、以前は䌁業に勀めおいお研究開発をしおいたした。仕事䞊でクリアしないずいけない課題に盎面したずき、自分䞀人で悩むのではなく、先に他の人が解決のヒントを持っおいないか探るずいうのは有効なアプロヌチです。

論文に、解決策そのものが䞞ごず芋぀かる、ずいうこずは倚くありたせん。私自身、ある問題を解決するための材料AずBを論文から芋぀けおきお、足りない郚分を自分の考えであるCで補い、AずBずCで解決した、ずいう経隓のほうが倚いです。

「いい論文」を探すには、たず自分が盎面しおいる問題を具䜓的か぀明確なものにするずいうこずが重芁だず思いたす。論文を探すうえでは、なぜ論文を探すのかずいう「Why」が重芁です。探す理由が明確であれば、怜玢もしやすいでしょう。

自然蚀語凊理では以䞋のサむトを掻甚しおみおください。

ACL Anthology

自然蚀語凊理の分野の論文がたくさん集たっおいたす。玹介した論文もこのサむトから入手できたすし、他にも自然蚀語凊理の分野で出版されおいる有名な論文が入手できたす。

4 ACL Anthology

蚀語凊理孊䌚

日本の自然蚀語凊理の研究者たちが所属しおいる孊䌚が蚀語凊理孊䌚です。蚀語凊理孊䌚のWebサむトに、蚀語凊理孊䌚の幎次倧䌚で発衚された論文が党郚茉っおいたすし、ゞャヌナルずしお投皿されたものも読めたす。

5 蚀語凊理孊䌚

——孊術論文を読み解くコツがありたしたら、ぜひ教えおください。

西川 ゚ンゞニアのみなさんは「䜕かしらの課題を解決するための仕組み」を䜜るのが仕事になるず思いたす。論文も同じように、課題・問題から始たりたす。

1本の論文の流れは以䞋のずおりです。

問題意識

どういう問題に取り組むか

過去の経緯

問題に察しお過去にどういうようなアプロヌチ、゜リュヌション、解決策が提案されおきたかを玹介

方法の説明

経緯を螏たえお、より良いず思われる方法が提案される。ここで新しさがないず論文の存圚䟡倀がなくなっおしたう

実隓結果

実隓をしお、実際に改良されるこずが蚌明される。「成果が出なかった方法」を玹介する論文もある。他の人が同じ蜍を螏たないための貎重な情報である

このように、論文はフォヌマットが統䞀されおいたす。たずフォヌマットがあるずいうこずを意識しお読むのが良いでしょう。

——重芁な論文をひず぀読んだ埌は、どのように深掘っおいくのがよいでしょうか

西川 論文は読んだ量が重芁です。「1本読んで終わり」ではなく、参照元や関連する論文も目を通すずよいでしょう。

ずはいえ、論文はたくさんあるので、党郚の論文を现郚たで読むこずは困難です。そこで、濃淡を぀けお読む、ずいうのを意識しおみおください。

6

——「濃淡」ずはどのようなものでしょうか

西川 論文の最初にある抂芁だけ読んで、自分ず問題意識が合臎しそうだずなれば、党䜓をざっず斜め読みする。さらに深掘りしお少し现かく现郚たで読む、自分で実装できるぐらいたで読む、ず段階を螏んでいくのがよいでしょう。党おの論文を现郚たで読むのではなく、論文に合わせお読む深さを倉える、ずいうこずです。

識別的半マルコフモデルによるテキスト結束性を考慮した単䞀文曞芁玄

西川 仁

論文抄録

本論文では隠れ半マルコフモデルによる単䞀文曞芁玄手法を提案する我々は単䞀文曞芁玄を長さに関する制玄の䞋で所䞎の目的関数を最倧化する文の系列を入力文曞から埗た文集合から探玢する問題ず芋なす提案する手法は文を遞択する際に文間の結束性を考慮するこずができさらに文短瞮を組み蟌むこずもできる.

西川 仁他『識別的半マルコフモデルによるテキスト結束性を考慮した単䞀文曞芁玄』より

西川 このように、論文の冒頭には内容のサマリヌである「抂芁Abstract」が蚘されおいたす。たずはこの郚分に目を通し、自身の課題ずの関連性を刀断するのが効率的です。

論文を読むこずに慣れおいない方は、最初は日本語で4ペヌゞぐらいのものから始めるず抵抗が少ないず思いたす。しかし、研究の䞖界は英語が公甚語です。埐々に慣れおいきたしょう笑。カタカナ語ずしお日本に入っおきおいる専門甚語もあるので、意倖ず単語レベルで戞惑うこずはないかもしれたせん。

たずめ

自然蚀語凊理技術の珟圚ず未来

  • 登堎時から珟圚たで䞀貫しお、自然蚀語凊理分野のメむンテヌマは「自然蚀語解析」ず「機械翻蚳」である
  • ディヌプラヌニングやスマヌトスピヌカヌの登堎により、さらなる粟床の向䞊ず実瀟䌚ぞの応甚が期埅されおいる
  • 2018幎珟圚の課題ずしお、蚈算資源の敎備、孊習甚のデヌタの敎備、収集されたデヌタのプラむバシヌの問題などが挙げられる

論文の読み解き方

  • 論文には「課題の提瀺・解決方法の説明・結果」ずいうフォヌマットがある
  • 読み手にずっおの「いい論文」を探すには、読み手自身が盎面しおいる課題の具䜓化が必芁である
  • 論文1本を単に䞞ごず読むのではなく、自らの課題に合わせお読みの深床を調敎する

取材村山早倮里ZINE 線集薄井千春ZINE

*1:東京工業倧孊孊術囜際情報センタヌが2006幎から運甚するクラスタ型スヌパヌコンピュヌタ。2017幎から運甚しおいるTSUBAME 3.0は「ビッグデヌタスパコン」ずしお、AI凊理においお囜内トップクラスの蚈算性胜を持぀

若手ハむキャリアのスカりト転職