Windows 8は、Microsoftにとって壮大なOSの刷新となるはずでした。Windowsプラットフォームをモバイル時代へと導くための、劇的な刷新です。そしてWindows 8は、モバイル世界における他の2つのOSの主力であるiOSとAndroidと同等の機能を実現しようとするMicrosoftの試みでもあります。
しかし、Windows 8 のレパートリーには、重要な機能の 1 つ、つまり、注目に値する、ロック スター級の機能の 1 つが明らかに欠けています。インテリジェントで意味を認識する音声制御が、新しい OS のどこにも見当たりません。

iPadとiPhoneの仮想キーボードには、音声入力ボタンが組み込まれています。また、Googleは今年初めにリリースされたAndroidのJelly Beanバージョンに、独自の高度な音声制御機能を統合しました。では、なぜ音声制御はWindows 8の目玉機能ではないのでしょうか?
簡単に答えると、音声制御テクノロジは、PC や Mac のいずれにおいても、ラップトップやデスクトップに意味のある形で導入されておらず、Windows 8 は、少なくとも短期的には、タブレット OS というよりもコンピュータ OS であるということです。
Windows 8(Windows 7およびVista)では、音声認識は依然として「支援技術」の役割にとどまっており、障害のあるユーザーのPC操作を支援するために設計されています。VistaおよびWindows 7のWindows音声認識(WVR)機能では、ユーザーは自分の声でOSのいくつかの小さな動作を制御でき、テキストの音声入力も可能でしたが、その精度はそれぞれ異なっていました。
Windows 7と比較すると、Windows 8はアクセシビリティ が段階的に向上していますが、Microsoftが音声制御をOSの主要機能にするという強い意欲を持っていないことも明らかです。Windows 8はマイクを使用すれば音声を認識し、簡単なコマンドを実行できますが、AppleのSiriのような音声制御による「パーソナルアシスタント」のような体験を提供するものではありません。
逃したチャンス
マイクロソフトは、音声制御に常に関心を示さなかったわけではありません。このソフトウェア界の巨人は、Windows VistaでWindows Speed Recognition(WSR)を導入し、当時はすべてのWindowsユーザーがコンピュータと音声でやり取りできるようにすることに非常に熱心だったようです。また、音声コマンドに反応して特定の反復タスクを実行できる「Windows Speed Recognitionマクロ」という機能もデモしました。しかし残念ながら、この機能を使用するにはユーザーが独自のマクロ(「ファイルを開く」など)を作成する必要があり、結果としてWSRは主に上級ユーザーによって利用されていました。
マイクロソフトは2007年に「音声ポータル」企業TellMeを買収し、買収で獲得した音声認識技術を使ってWindowsに音声コマンドを導入する準備が整ったように見えました。しかし、それは実現しませんでした。TellMeの技術は、結局Windows Phone 7と8の音声コマンドに主に利用されました。
Siriの影響
多くの人にとって、iPhone 4SのSiri機能は、単に単語を書き起こしたりウィンドウを開いたりする以上の機能を備えた音声認識システムを初めて体験した瞬間でした。実際、Siriは単なる音声認識ツールよりもはるかに奥深い存在です。比較的微妙なニュアンスを理解し、スマートフォンに求める多くのタスクを実行してくれる「パーソナルアシスタント」なのです。

Siriを使えば、音声だけでテキストメッセージやメールを作成・送信できます。会議のスケジュール設定、道順の問い合わせ、リマインダーの設定など、様々な用途に使えます。検索機能に関しては、Siriはセマンティック技術を用いて、「テキサス州で一番大きな都市はどこですか?」といった平易な英語での情報要求を理解します。
AppleとGoogleは既にモバイルデバイス向けのセマンティック音声制御の完成に向けて競争を繰り広げており、Microsoftもこの競争に参入し、Windows 8の主要機能として音声認識を復活させることもできたはずだ。実際、Microsoftはセマンティック音声制御をデスクトップに導入することで、競合他社を一気に追い抜くことができたはずだ。これは、懐疑的なXPやWindows 7ユーザーをWindows 8へと移行させるキラー機能になっていたかもしれない。
ノートパソコンとデスクトップPCのメーカーも大きな恩恵を受けることができたはずです。タブレットへの関心が高まるにつれ、業界はPC売上の落ち込みを抑えようと躍起になっています。ノートパソコンとデスクトップPC向けのインテリジェント音声認識は、製品マネージャーが切望する魅力的な機能だったかもしれません。
残念ながら、現状ではPCメーカーは、消費者がモバイルデバイスでは主に音声コマンドを求めており、PCではキーボードによる手動操作で十分だと考えているようだ。「(音声制御)の研究開発の勢いの大部分は、モバイル市場、つまりスマートフォンやタブレットといったスマートデバイスに向けられるだろう。少なくとも短期的には、これらの市場への需要は尽きることはないようだ」と、テクノロジー市場調査会社BCCリサーチのアナリスト、パトリシア・クッツァ氏は述べている。
ウルトラブックの音声
PC業界で音声認識を本格的に推進するのは、MicrosoftではなくIntelになるかもしれない。このチップメーカーは既に、音声認識技術企業Nuanceと提携し、Ultrabook向けの音声認識アプリ「Dragon Assistant」を開発している。Dragon Assistantはコンピューター上でネイティブに動作し、サードパーティ製アプリと連携して、音楽の検索・再生、メールの作成、ウェブ閲覧、動画の視聴、ソーシャルメディアの利用など、Siriのような機能を提供する。Nuanceは現在、音声認識市場をリードする開発企業だ。そして、NuanceがSiriの大部分を開発したことは公然の秘密だ(AppleはNuanceが技術パートナーであることのみを認めている)。同社はまた、Fordの車載システムSyncに搭載されているVRシステムも開発している。

Nuanceは、市場で最も売れているデスクトップディクテーションアプリケーションであるDragon Naturally Speakingを開発し、音声制御事業に参入しました。Nuanceは その後、この製品の機能を拡張し、ユーザーがPCで音声を使用してより多くの操作を行えるようにしました。同社は、Siriのような体験をラップトップやデスクトップにもたらすことに強い関心を持っていると述べています。「フォームファクター間の境界線は曖昧になりつつあると考えています」と、Nuanceの副社長兼Dragonデバイス担当ゼネラルマネージャーであるマット・レヴィス氏は述べています。「モバイル端末の登場により、デスクトップやラップトップを含むあらゆるフォームファクターで、音声によるインターフェースへの需要が高まっています。」レヴィス氏によると、Windows 8には音声ベースのパーソナルアシスタント機能が搭載されていないため、同社のようなサードパーティが参入してソリューションを提供する余地が残されています。しかし、OSへの直接統合にはメリットがあることを認めています。「コマンドやコントロールなどのパーソナルアシスタント機能をOSに組み込むことには、メリットがあるかもしれません」とレヴィス氏は述べています。 「これは、『画面を明るくする』や『スリープ状態にする』といったコマンドを意味する可能性があります」とレヴィス氏は述べている。しかし、レヴィス氏は、Dragon Assistantがユーザーがマシン上で最も頻繁に行うタスクの80%を実行していることを強調する。これには、音楽アプリを使って音楽を再生するといった、他のサードパーティ製アプリとの連携も含まれる。IntelとNuanceがIntelのUltrabookプラットフォームへの音声認識の組み込みに成功すれば、Microsoftは将来のOSで音声コマンドを組み込むよう圧力を受ける可能性がある。開発者コミュニティも役割を果たす可能性がある。BCCリサーチのクッツァ氏は、「Microsoftは『様子見』の姿勢を取り、この機能をWindows 8に統合する前に開発者からのフィードバックを評価する可能性があります」と述べている。