
音声認識技術の発展を振り返ることは、赤ちゃん言葉の単音節を認識するレベルから、数千語の語彙を構築し、Apple の超賢い仮想アシスタント Siri のように、質問に素早く機知に富んだ返答で答えるまで、子供が成長していくのを見るようなものです。
少し皮肉なユーモアを交えたSiriの音声を聞いていると、音声認識技術がここ数年でどれほど進歩してきたのかと不思議に思います。ここでは、過去数十年間の進歩を振り返り、音声だけでデバイスを操作できるようになった経緯を振り返ります。
1950年代と1960年代: 赤ちゃん言葉
最初の音声認識システムは数字しか理解できませんでした。(人間の言語の複雑さを考えると、発明家やエンジニアが最初に数字に注目したのは当然のことです。)ベル研究所は1952年に「オードリー」システムを設計しました。これは、単一の音声で話された数字を認識するものです。10年後、IBMは1962年の万国博覧会で、英語で話された16語を理解できる「シューボックス」マシンを披露しました。
アメリカ、日本、イギリス、ソビエト連邦の研究所では、音声認識専用のハードウェアが開発され、音声認識技術が 4 つの母音と 9 つの子音をサポートするように拡張されました。
大したことではないように聞こえるかもしれませんが、特に当時のコンピューター自体がいかに原始的であったかを考えると、これらの最初の取り組みは印象的なスタートでした。
1970年代: 音声認識の普及

音声認識技術は、米国国防総省の関心と資金援助のおかげで、1970年代に大きく進歩しました。1971年から1976年にかけて実施された国防総省のDARPA音声理解研究(SUR)プログラムは、音声認識の歴史において最大規模のプログラムの一つであり、カーネギーメロン大学の「Harpy」音声理解システムの開発にも貢献しました。Harpyは1011語を理解でき、これは平均的な3歳児の語彙数にほぼ相当します。
アレックス・ワイベルとカイフー・リー共著の『Readings in Speech Recognition』によると、Harpyが「ビームサーチ」と呼ばれるより効率的な探索手法を導入したことは、その意義深い点である。「可能な文の有限状態ネットワークを証明した」とされている。(音声認識の歴史は、検索手法と技術の進歩と深く結びついており、これは数年前にGoogleがモバイルデバイス上の音声認識に参入したことからも明らかである。)
1970 年代には、音声認識技術において、最初の商用音声認識会社である Threshold Technology の設立や、ベル研究所による複数人の音声を解釈できるシステムの導入など、いくつかの重要な節目もありました。
1980年代: 音声認識は予測へと向かう
その後10年間で、人の発話を理解するための新たなアプローチのおかげで、音声認識語彙は数百語から数千語へと飛躍的に増加し、無限の数の単語を認識できる可能性を秘めていました。その大きな理由の一つは、隠れマルコフモデルと呼ばれる新しい統計手法でした。
HMMは、単に単語のテンプレートを用いて音のパターンを探すのではなく、未知の音が単語である確率を考慮しました。この基盤はその後20年間にわたって確立されました(BH JuangとLawrence R. Rabiner著『自動音声認識—技術開発の簡潔な歴史』参照)。
拡張された語彙を備えた音声認識は、ビジネスや専門産業(例えば医療分野)向けの商用アプリケーションへの導入が始まりました。さらに、ワールド・オブ・ワンダーのジュリー人形(1987年)という形で家庭にも導入され、子供たちは自分の声に反応するように訓練することができました。(「ついに、あなたのことを理解してくれる人形が誕生した」)
ジュリーがどれだけ上手に話せたか見てみましょう:
しかし、当時の音声認識ソフトウェアが、1985 年の Kurzweil の音声合成プログラムのように 1,000 語を認識できたとしても、あるいは IBM のシステムのように 5,000 語の語彙をサポートできたとしても、大きなハードルが残っていました。これらのプログラムは個別のディクテーションを取得するため、各単語ごとに、またすべての単語ごとに、一時停止する必要がありました。
次のページ: 大衆向けの音声認識と音声認識の将来
1990年代: 自動音声認識が一般化

90 年代に、より高速なプロセッサを搭載したコンピュータがようやく登場し、音声認識ソフトウェアが一般の人々にも利用可能になりました。
1990年、Dragonは最初の消費者向け音声認識製品であるDragon Dictateを9000ドルという驚くべき価格で発売しました。7年後、大幅に改良されたDragon NaturallySpeakingが登場しました。このアプリケーションは連続した音声を認識するため、1分間に約100語の自然な音声で話すことができました。しかし、プログラムを45分間学習させる必要があり、価格は695ドルと依然として高価でした。
最初の音声ポータルであるベルサウスのVALが登場したのは1996年のことでした。VALはダイヤルイン方式のインタラクティブ音声認識システムで、電話で話した内容に基づいて情報を提供するはずでした。VALは、その後15年以上もの間、発信者を悩ませることになる、不正確な音声起動メニューの先駆けとなりました。
2000年代: 音声認識の停滞 ― Googleの登場まで
2001年までに、コンピューター音声認識の精度は80%に達し、2000年代末には技術の進歩は停滞したように見えました。認識システムは、言語空間が限られていた当時は優れた性能を発揮していましたが、それでも統計モデルの助けを借りて、似た発音の単語の中から「推測」している状態であり、インターネットの発展に伴い、既知の言語空間は拡大し続けました。
Windows VistaとMac OS Xに音声認識と音声コマンドが組み込まれていることをご存知でしたか?多くのコンピューターユーザーは、これらの機能の存在を知りませんでした。Windowsの音声認識とOS Xの音声コマンドは興味深いものでしたが、従来のキーボードとマウスほど正確で使いやすいものではありませんでした。

音声認識技術の開発は、ある大きな出来事、iPhone向けGoogle音声検索アプリの登場を機に、再び最前線に返り咲き始めました。Googleアプリのインパクトは2つの点で重要です。第一に、携帯電話などのモバイルデバイスは音声認識に最適なデバイスです。小さなオンスクリーンキーボードの代替を求める声が、より優れた代替入力方法の開発を促すからです。第二に、Googleはアプリの処理を自社のクラウドデータセンターにオフロードし、その膨大なコンピューティングパワーを活用して、ユーザーの言葉と収集した膨大な数の人間の音声サンプルとのマッチングに必要な大規模なデータ分析を実行できました。
つまり、音声認識のボトルネックは常にデータの入手可能性と、それを効率的に処理する能力でした。Googleのアプリは、数十億件の検索クエリのデータも分析に加え、ユーザーが何を言っているかをより正確に予測します。
2010年、GoogleはAndroidスマートフォンの音声検索に「パーソナライズ認識」機能を追加しました。これにより、ソフトウェアはユーザーの音声検索を録音し、より正確な音声モデルを生成できるようになりました。また、2011年半ばにはChromeブラウザにも音声検索機能を追加しました。当初は10語から100語程度でしたが、その後数千語へと拡大していきました。Googleの英語音声検索システムは現在、ユーザーの実際の検索クエリから2,300億語もの単語を抽出しています。

そして今、Siriが登場しました。Googleの音声検索と同様に、Siriはクラウドベースの処理に依存しています。ユーザーに関する知識を活用して文脈に沿った返答を生成し、音声入力に対して個性的な反応を示します。(PCWorldの同僚であるDavid Dawが指摘するように、「楽しいだけでなく、面白いです。Siriに人生の意味を尋ねると、『42』とか『これまでの証拠はすべてチョコレートを指している』と答えます。死体を隠したいと言えば、近くのゴミ捨て場や金属鋳造所を教えてくれます。」)
音声認識は実用から娯楽へと進化しました。子供はすっかり成長したようです。
未来:正確でユビキタスな音声
音声認識アプリの爆発的な増加は、音声認識の時代が到来したことを示しています。そして、今後さらに多くのアプリが登場することが期待されます。これらのアプリは、音声でPCを操作したり、音声をテキストに変換したりするだけでなく、複数の言語に対応し、様々なスピーカーの音声から選択でき、モバイルデバイスのあらゆる部分に統合されます(つまり、Siriの欠点を克服することになります)。
音声認識アプリの品質も向上します。例えば、SensoryのTrulyhandsfree Voice Controlは、騒がしい環境でもユーザーの声を聞き取り、理解することができます。
誰もがモバイル機器に話しかけることに慣れてくるにつれ、音声認識技術は他のデバイスにも波及していくでしょう。近い将来、コーヒーメーカーに指示を出したり、プリンターに話しかけたり、照明を自動で消灯させたりできるようになるのは想像に難くありません。
Twitter で Melanie Pinola (@melaniepinola) と Today@PCWorld をフォローしてください。