Latest evidence-based health information
Iphone

誰も言及しないWindowsの弱点:音声認識

誰も言及しないWindowsの弱点:音声認識
誰も言及しないWindowsの弱点:音声認識

この記事はもともと2016年10月7日に公開され、2017年5月10日に新しい情報を加えて更新されました。

Windowsには、あまり語られたくない機能がある。スタイラスペンでメモを取ったり、Windows Helloで顔認証でログイン(あるいはWebを安全に)したり、Cortanaにリマインダーを設定させたりできるのに、どうやら音声認識エンジンを使ってコマンドを出したり音声入力したりする機能は、あまり歓迎されていないようだ。

沈黙していた理由は、おそらく10年前に遡る。マイクロソフトのプロダクトマネージャー、シャネン・ベッチャーがWindows Vista内で音声ディクテーションのデモを行い、失敗に終わった時だ。その後、この技術は目立たず、今日ではWindowsで文書をディクテーションできることを知っているユーザーはほとんどいない。 

しかし、もしWindowsが再び挑戦する時があるとすれば、それはコンピューターと人工知能の進歩によってテクノロジーの基盤がはるかに強化された今だろう。そして、それは現実となった。

マイクロソフトはBuild 2017開発者会議において、新しいVideo Indexerのプレビュー版を発表しました。このツールは、動画の文字起こしだけでなく、話者識別、最大9言語への翻訳(オプション)、字幕自動生成、画面上のオブジェクトやオーバーレイの推測などを行います。さらに、基本的な感情分析も実行し、使用されている言葉が肯定的か否定的かを判断します。さらに、これらの機能はすべてWebポータルから検索可能で、特定の話者のテキストだけを表示することも可能です。

ビデオインデクサープレビュー Microsoft マーク・ハッハマン / IDG

Microsoft の Video Indexer は、アップロードされたビデオから膨大な量の情報を取得します。 

Video Indexerは、Microsoftが日常業務に人工知能をどのように応用しているかを示す一例です。例えば、同社はPowerPoint Translator機能を公開しました。この機能により、ユーザーはPowerPointプレゼンテーションを母国語に自動変換できます。しかし、Video Indexerはそれをはるかに超える機能を備えています。

Video Indexerのプロダクトマネージャー、ミラン・ガダ氏によると、このインデクサーは動画内の全ての発言者を即座に特定できるわけではない。しかし、ユーザーが「不明」な発言者を名前で特定した場合、データベース全体が正しい情報に更新されるとガダ氏は述べた。また、Video Indexerは動画を素早く検索できるため、ユーザーは最も興味のある箇所にすぐに移動できる。

ビデオインデクサープレビュー(スペイン語版)Microsoft マーク・ハッハマン / IDG

Video Indexer は、ビデオに埋め込まれたオーディオも自動翻訳します。 

これらすべてから、次のような疑問が浮かび上がります。Microsoft が企業顧客にこのようなソリューションを提供できるのであれば、なぜ Cortana の力を活用して消費者に同じ機能を提供できないのでしょうか。

音声ディクテーションに関するマイクロソフトの沈黙

「これは本当に素晴らしい質問です」と、マイクロソフトの音声認識研究、そしてCortanaとBingを統括するエグゼクティブバイスプレジデントのハリー・シャム氏は、昨年Microsoft Officeにおけるディクテーションの将来について尋ねられた際に述べた。「ディクテーションがまだもっと重要な役割を果たしていない理由は見当たりません。」

私たちはもう一度チャンスを与えることにしました。Windows の音声ディクテーション機能を詳しく調べて、最近の音声ベースのテクノロジとどう違うのかを調べてみました。 

Microsoft Wordのディクテーション

Word 2016に「ディクテーション」について尋ねると、まるで「ディクテーション」という言葉を聞いたことさえないかのように返答されます。Wordは「音声認識」についても同様の返答を表示します。

音声認識が完璧すぎるのはなぜいけないのか

音声ディクテーションについて、ドゥーンズベリーがApple Newtonを風刺したように  「テスト文を書いています」というセリフを「シャムが原子力歩哨と戦っています」と言い換えたように考えている人もいるかもしれません。そして、そう思っても無理はありません。Windows音声認識は、Vista以来文字通り変更されていないMicrosoft音声認識エンジン8.0を搭載しています。シュム氏はこれを「おじいちゃん」のような技術と呼んでいました。

しかし、変化したの  はハードウェアです。音声を聞き取って解釈するために必要な処理能力は、10年前よりもはるかに低くなっています。Surface BookのようなPCに内蔵されたアレイマイクの性能は、優れた精度を実現するために必ずしも専用のヘッドセットを必要としないことを意味します。一般の人でも音声ディクテーションを利用できる時代が到来したと言えるでしょう。

しかし、Windowsの音声機能をテストした時、システムが実際に使えるようになるために必要な容赦ない完璧さを身をもって体験しました。この記事は小見出しを含めて1,028語です。音声入力ソフトを使ってこれを書いた場合、95.0%の精度だと50箇所以上の間違いを修正しなければならないことになります。これではすぐに飽きてしまいます。

私がテストしている別の音声認識製品用に開発した手法に基づくテストでは、Windowsの精度は93.6%でした。これは理論上はかなり悪く、私が試している専用ソフトウェアよりもやや劣っています。また、Windowsは句読点を音声入力しているときに「カンマ」という単語を挿入するという奇妙な癖がありました。このような比較的小さな間違いが重要なものかどうかについては、音声認識コミュニティの間で意見が分かれているようです。

もちろん、これはあくまでも基準値に過ぎません。ディクテーションソフトを使ったことがある人なら誰でも分かるように、正確さの鍵はトレーニングです。音声ディクテーションプログラムは、時間をかけてユーザーのアクセントを学習し、アプリコットの「a」を「bad」のように発音するのか「ape」のように発音するのか、そして無意識の癖をフィルタリングする方法も学習します。マイクロソフトの社員が、適切なトレーニングを受ければWindowsの音声認識の精度は99%になると主張しているのを聞いたことがあります。1,000語あたり10回程度の間違いなら、決して悪くはありません。

しかし、ソフトウェアの学習に時間を費やしたい人はほとんどいないでしょう。Windows音声認識は、練習用の文章をいくつか練習するだけで最大10分かかり、まるで一生かかっているように感じます。CortanaとSiriは、既に何百万もの音声サンプルで学習されているため、このようなセットアップ時間は一切必要ありません。すぐに満足感を得られることには、確かにメリットがあります。

Windows 10 音声認識トレーニング

Windowsでの音声認識のトレーニングは時間がかかります。NuanceのDragonソフトウェアのセットアップ時間ははるかに短く、おそらく1分程度です。しかし、現代のデジタルアシスタントはあなたの言葉を瞬時に認識します。

Cortana(PCでもスマートフォンでも利用可能)がWindows独自の旧式の音声入力システムよりもはるかに優れているのは、Microsoftクラウドの膨大な計算能力との連携です。Microsoftは、ユーザーの音声入力を、ユーザーに関するあらゆるデータと分析・相関させ、Cortanaの真髄とも言えるインテリジェンスを生み出します。

マイクロソフトが音声認識を重視

Cortanaの実績あるスキルを考えると、音声認識が中心となると思われるかもしれません。しかし、Build 2016では、幹部はOfficeにディクテーション機能は追加されないと述べました。しかし、昨年10月に開催されたIgniteカンファレンスで、サティア・ナデラCEOは基調講演で、音声認識がMicrosoftの将来にとって重要な要素であると強調しました。 

例えば、Skype Translator を例に挙げましょう。ナデラ氏によると、Microsoft の『スタートレック』のような万能翻訳機は、音声認識、音声合成、そして機械翻訳という3つの異なる研究分野に依存しています。 

「WordやOutlookで文書を作成しているときでさえ、単純なシソーラスベースのスペル修正機能はもはや存在しません」とナデラ氏は述べ、Officeは失読症にも対応できるようになったと付け加えた。「私たちは、ユーザーが作成しているもの、あるいは書いている内容を、完全に計算言語的に理解しています。」

しかし、どうやらあなたが言っているのはそうではないようです。 

ナデラ・サンダース プリント マイクロソフト

マイクロソフトのCEO、サティア・ナデラ氏が、マイクロソフトのIgniteカンファレンスでNFLスターのデオン・サンダース氏の隣に立っている。マイクロソフトはディクテーションの機会を逃したのだろうか?

同じ講演で、ナデラ氏はMicrosoftの音声認識アルゴリズムがNISTスイッチボードテストで単語誤り率6.9%を達成したと自慢していました。これは約93.1%の精度なので、悪く聞こえるかもしれません。しかし、スイッチボードテストではわずか8KHzのサンプルレートが使用されており、これは2000年の電話会話と同程度の音質です。OneNoteのコーデックであるWindows Media Audio 10は、最大48KHzの音声をキャプチャできるため、はるかに正確なサンプルを提供します。 

技術的には、パズルのピースは揃っているのは明らかだと思います。もし障害があるとすれば、それは組織的な問題かもしれません。MicrosoftのOfficeアプリはCortanaやBingから独立し、独自のグループに分離されました。しかし、シュム氏は、インテリジェンスは依然としてMicrosoftの製品に不可欠な要素であると述べました。「すべてのMicrosoft製品にAI技術を組み込んでいますので、ご安心ください」と、彼は10月に述べました。

マイクロソフトの代表者らはまた、ユーザーは今後マイクロソフトにさらなる期待を寄せるべきだとも述べた。 

「私たちは、様々なデバイスやエクスペリエンスを横断した会話に価値を見出しています」と、マイクロソフトは10月の声明で述べています。「私たちは、可能性を信じ、実現に向けて邁進している段階に過ぎません。Cortanaと会話を様々な生産性向上シナリオに活用できる機会は数多くあると考えています。現在、CortanaはOffice 365と連携し、今後の会議情報やフライトや荷物の追跡情報を一目で確認できるようになっています。また、BingもOffice内で直接、インテリジェントなインサイトを提供しています。私たちは、この分野に引き続き積極的に投資していきます。」 

しかし、マイクロソフトが本当に生産性を信じているなら、PCの音声認識の未来は、Skypeを使ってバングラデシュのホテルを予約することではないだろう。それは、指ではなく声で体験を書き留めることだ。

Otpoo

Health writer and researcher with expertise in evidence-based medicine and healthcare information.