マイクロソフトは先日、CortanaとBingの製品チームをMicrosoft Researchと同じ組織内に置くという異例の措置を講じました。新設のMicrosoft AI & Research Groupは、コンピュータービジョンのパイオニアであり、エグゼクティブバイスプレジデントを務めるハリー・シャム氏が率います。シャム氏は20年にわたるマイクロソフトでのキャリアの中で、2007年から2013年にかけてBingの検索事業を率い、Microsoft Research Chinaの設立にも尽力しました。
以下のインタビューでは、この新しい組織がマイクロソフトのデジタルアシスタントにどのようなメリットをもたらすのか、シュム氏に尋ねました。インタビューは、長さと分かりやすさを考慮して編集されています。(さらに詳しく知りたい方は、Cortana 2.0の将来像や、Windowsにおける音声認識の仕組みに関するより詳細な考察を掲載した関連記事をご覧ください。)
マイクロソフトの新しいAI部門の設立を発表したブログ記事の文言と、サティア・ナデラ氏のその部門の説明から、マイクロソフトは人工知能(AI)分野において、ある種の宇宙開発競争に身を置いていると考えているようです。これは正しいのでしょうか?
AIに本格的に取り組むには今が絶好のタイミングだと感じています。ただ、ロボット工学とAIで博士号を取得していて、専門はコンピュータービジョンだったので、少し複雑な気持ちです。少し前に卒業した頃は、AI専攻の卒業生が良い仕事を見つけるには良い時期ではなかったと思います。でも今は、ニューラルネットワークを数層トレーニングする方法を知っている人なら、どの企業からも内定をもらえるでしょう。

マイクロソフトは先週、ハリー・シャム氏を同社の新しいAI・研究グループのリーダーに任命した。
今は非常に興味深い時代です。膨大なデータ、強力なコンピューティングパワー、そしてここ数年の機械学習、特にディープラーニングの驚異的な進歩など、様々な技術的要因が融合しています。今こそその時だと誰もが感じていると思いますし、マイクロソフトもそう感じています。だからこそ、Microsoft AI and Research Groupの設立という大きな発表をしたのです。
CortanaとBingの製品チームをMicrosoftの研究者と隣り合わせに据えることで、これらの製品がMicrosoftのインテリジェンス・イニシアチブの中心となることが示唆されます。その結果、両製品はどのように改善されると思いますか?
まず最初に申し上げたいのは、過去25年間、マイクロソフトで築き上げてきたMSRの技術は、あらゆる製品に大きく貢献してきたということです。マイクロソフトのほぼすべての主要製品は、MSRの技術の恩恵を受けていると言っても過言ではありません。しかし、現在では、AI製品やサービスを開発するためには、最新技術をより迅速にユーザーに届ける必要があるため、研究から製品化までのサイクルを加速させる必要があると考えています。だからこそ、研究者と開発者を結集させるため、この組織を立ち上げたのです。
そして、この2つの製品についてですが、BingとCortanaを比較すると、その違いが分かります。私自身、Bingに7年近く携わっていました。もちろん、人それぞれ意見は異なりますが、Bingは信頼できる検索エンジンであり、私たちは信頼できる代替手段を提供していると言えるでしょう。米国の検索トラフィックの約3分の1を占めています。
Cortanaは私たちにとって本当に大きな期待を寄せる製品です。おっしゃる通り、Cortanaのような製品は人工知能の象徴です。現在、Cortanaのユーザーは約1億3,300万人で、これまでに100億件以上の質問に答えてきました。Cortanaの利用はますます広がっています。MSRとの提携、そしてより多くのMSRのAI研究者との連携によって、Cortanaの品質、そしてユーザーエクスペリエンスに関して、私は大きな期待を抱いています。今後、あらゆる面で向上していくでしょう。
Cortana をアクティブに使用している人の数は、Windows 10 を実行しているデバイスの半分以下だと思います。これで満足ですか?
このような製品に携わる限り、常に改善の余地はあります。おっしゃる通り、この種の製品を設計・出荷する際に最も重要なのは、ユーザー数とユーザーエンゲージメントの度合いという2点です。これは非常に興味深い設計上の判断です。「この製品は何なのか? ユーザーのために何をするのか?」という点です。私たちが必ず追跡している項目の一つは、各セッションにおけるエージェントとの会話数です。Cortanaは市場の他の競合製品と比べても遜色ない性能を持っていると感じています。
ご存知でしょうか、XiaoIceチャットボットという非常にエキサイティングな製品があります。中国で出荷し、日本語版もリリースしました。こちらも日本で同様に好評で、米国市場での展開についてはまだ検討中です。
チャットボットのような異なる種類のエージェントを設計する場合、ユーザーインタラクションの量は大幅に増加し、その種類も異なります。そのため、製品の設計に大きく依存します。
Cortanaは今のところアシスタントです。現れては消えるだけです。Googleはアシスタントでチャットボットのアプローチを試みています。近い将来、Cortanaのチャットボットが登場すると思いますか?
Cortanaは、人々がタスクを完了するのを支援するために設計されています。例えば、母親の誕生日に何かを買うべきだというリマインダーや、交通渋滞のため帰宅する時間だと知らせるなどです。あるいは、知識を求めるような質問にも対応します。これは、私たちが今日行うべき設計上の決定です。
既にリリース済みのチャットボットや開発中のチャットボットから学ぶことはたくさんあります。ユーザーにとってどのようなシナリオがより重要かを見極める必要があります。近い将来、世界にインテリジェントエージェントが一つだけになるとは考えていません。私たちは開発を進めながら、学んでいくでしょう。
繰り返しになりますが、この種の製品の複雑さと難しさを強調したいと思います。まだ初期段階だと思います。
あなたは今、いわばCortanaの上司ですね。Cortanaの長所と短所をSiriやGoogleアシスタントと比較していただけますか?
市場に競合製品が存在するのは素晴らしいことだと思います。他の優秀なエンジニアたちが何を作っているかを見ることほど刺激的なことはありません。
私たちはBingから受け継いだ知識を継承しており、世界中の知識と、そこで何ができるかを理解しています。そして、他のエージェントと比較します。また、様々な状況におけるユーザーについても理解しています。そのため、古い知識だけでなく、カレンダー情報など、ユーザーが喜んで共有してくれる関連データや、メールアドレスなども活用しています。これらを活用することで、より良いサービスを提供できるのです。
もう一つ、最初から明確にしてきたのは、Cortanaに何らかの個性を持たせたいということです。これは実はデザイン上の選択です。SiriとCortanaを見れば、おそらく非常に似た哲学を持っているでしょう。他のエージェントは異なる考え方をするかもしれません。
Microsoftは、私が話せないドイツ語で、Skype翻訳を使って他の人と会話するように勧めてきます。しかし、音声認識はディクテーションを含む他の生産性向上機能の基盤となっています。なぜWordやOfficeではディクテーションがもっと重要な役割を果たさないのでしょうか?
AIがまだもっと重要な役割を果たしていない理由はないと断言します。ご安心ください。私たちはすべてのMicrosoft製品にAI技術を組み込んでいます。もし見逃していた方がいらっしゃいましたら、数週間前にSwitchboardのテストデータにおける音声認識のエラー率で世界記録を更新したことを発表しました。IBMは常にトップであり、今や私たちがナンバーワンに到達しました。
私たちは、人間と同等の認識能力(ヒューマンパリティ)を初めて実現することを目指し、懸命に努力しています。近いうちに実現できればと思っています。(編集者注:マイクロソフトは火曜日、自社の音声認識技術が人間と同等の認識能力を達成したと発表しました。)
Windows 10 の音声認識技術は Windows Vista にまで遡りますが、Cortana の音声認識技術は比較的最近開発されたようです。Cortana の音声認識技術はいつ Windows に統合されるのでしょうか?
Cortanaで使用しているテクノロジーはVistaのテクノロジーに基づいていません。Vistaはいわばおじいちゃん世代のエージェントのようなものだと思います。だからこそ、マイクロソフトの研究者はAI製品チームと連携し、研究室で開発したテクノロジーを製品化し、ユーザーにお届けするまでのサイクルを加速させています。私たちはこの取り組みに非常に興奮しており、近いうちにさらなる進捗をお見せできることを期待しています。
10 月 18 日に更新され、Microsoft の音声認識が人間と同等のレベルに達したことが記載されました。