Latest evidence-based health information
Airpods

5つの音声認識プログラムでPCを操作する

5つの音声認識プログラムでPCを操作する
5つの音声認識プログラムでPCを操作する

Dragonは長らく音声認識の分野で圧倒的な地位を占めてきましたが、もはや時代遅れです。よりシンプルで安価な(ただし、Dragonほど強力ではない)選択肢が、小さな領土を築きつつあります。音声コマンドの使用は反復性運動障害(RSI)の予防や軽減に繋がることを考えると、選択肢が多ければ多いほど良いと言えるでしょう。また、音声認識はタイピングよりも適したプロジェクトもあります。

試乗する価値のあるWindowsベースの選択肢を5つ見つけました。これらは、私の母国スコットランド訛りと、ヴュルツブルクで13年間過ごしたことで磨かれたドイツ語アクセントという、かなり過酷な環境下でテストされました。どれも強力なドラゴンを倒せるほどではありませんでしたが、それでも多くの用途で役立つでしょう。

Windows音声認識

Microsoftは大々的に宣伝していませんが、Windowsの最新バージョンには同社独自のWindows音声認識ソフトウェアがプリインストールされています。最初は嫌だなと思っていましたが、実際には感心しました。無料だし、Vista、Windows 7、Windows 8のPCには既にインストールされていることを考えるとなおさらです。

Windows音声認識のスクリーンショット
Windows 音声認識は目立たず、無料で、すでにインストールされています。

Windows音声認識をオンにするには、スタートメニューを開き、下部の検索ボックスに「」と入力しますspeech recognition。ポップアップ表示されるオプションをクリックすると、機能を有効にするウィンドウが開きます。また、短いテキストを読み上げてWindowsにあなたの声を認識させることもできます。コントロールパネルからもこの機能にアクセスできます。設定が完了すると、小さなステータスボックスが表示されます。このボックスを使って音声認識のオン/オフを切り替えます。

まず、マイクに向かって「聞き始めて」とはっきりと言うだけです。アプリはビープ音を鳴らし、すぐに動作を開始し、次の指示を待ちます。Windows音声認識を使えば、PC上のほぼすべての操作を実行できます。ブラウザ(新しいタブを含む)、アプリ、Microsoft Officeドキュメントを開くこともできます。ドキュメントを開いたら、音声入力でテキストを入力すると、すぐに表示されます。

コンピューターのシャットダウンや再起動、スタートメニューやコマンドラインボックスの呼び出しも指示できます。操作が終わったら、「Stop listening(聞くのをやめる)」と言うだけでスリープ状態になり、再度起動するまで待機します。

使いやすく、価格も手頃ですが、Windows音声認識のパフォーマンスには改善の余地があります。MS Officeドキュメントに長いテキストを音声入力すると、精度が低下するのを感じました。また、私のドイツ語訛りにはうまく反応しなかったため、他の訛りでもうまく機能しない可能性があります。

Google音声検索

Chromeユーザーの方は、Google検索バーの右端に小さなマイクがあることに気づいたかもしれません。それがGoogle音声検索です。

Google音声検索のスクリーンショット
Google 音声検索により、Chrome がさらに価値あるものになります。

Googleの音声認識技術には現在、検索エンジンと翻訳サービスが含まれていますが、翻訳サービスはiOSのみに対応しています。Google音声検索は、複数のプラットフォームで動作するGoogle Chromeブラウザでのみ利用可能です。

Chromeを使ってGoogleのメインウェブページにアクセスします。パソコンにマイク(ヘッドセットやウェブカメラなど)が設定されていることを前提に、マイクアイコンをクリックします。最初は、Googleにマイクへのアクセスを許可するよう求められます。許可すると、検索キーワードを発声するよう促されます。音声はほぼ瞬時に認識され、コンピュータが認識した内容が画面に表示されます。検索結果もマウスをクリックすることなくすぐに表示されます。

Google音声検索のスクリーンショット
話すのをやめた瞬間、すべての文字が黒くなります。そして少し経つと、検索結果が表示されます。

Googleの音声認識アルゴリズムは、ユーザーの発話内容の認識がかなり優れています。10個の検索語を、普段のスコットランド訛りとドイツ訛りの英語で発音してみました。つまずいたのはほんの数回だけで、それも母国語の英語で発音した時だけでした。

Dragon NaturallySpeaking プレミアム

Dragonは音声認識技術の分野で長年の実績があり、そのアルゴリズムは高度な技術の域に達しています。しかし、その技術には高額な価格が伴います。Dragon NaturallySpeakingのHome版は75ドル、Premium版は現在150ドルです。

最近のインテルプロセッサー搭載のUltrabookや一体型デスクトップをお持ちなら、Dragon Assistantがプリインストールされているかもしれません。(iPhoneやiPadにもプリインストール版があり、Nuanceは今年初め、Apple向けのSiriを開発していることを発表しました。)そうでない場合、最も安価なプレビュー版は20ドルのDragon Notesで、これを使えば、機能を簡素化したプログラムで音声認識機能をテストできます。

Dragon Naturally Speaking Proのスクリーンショット
Dragon NaturallySpeaking がトレーニングを段階的に進めていきます。

Dragon NaturallySpeakingを初めて起動すると、通常通りテキストディクテーションを行ってユーザープロファイルを設定する必要があります。その後、画面上部にバーが表示されます。バーにはオレンジ色のマイクのロゴが表示されており、これはDragonが現在音声認識していないことを示しています。アプリケーションを起動するには、「wake up(起動)」と言うだけで、オレンジ色のロゴが緑色に変わります。ここでDragonの機能を確認できます。

素晴らしい機能の一つは、Gmailを含むWebアプリやメールとの連携です。テキストボックスがあれば、Dragonは指示されたテキストをそのまま入力します。メールの作成、Google検索、FacebookやTwitterへの投稿、Webブラウザの起動なども自動で行います。カーソル位置の指定も可能です。

Dragon Naturally Speaking Proのスクリーンショット
ドラゴンはあなたから学ぶほど賢いです。

Dragonの真価が発揮されるのは、ディクテーションの精度です。Microsoft Wordやメモ帳といった一般的なワープロアプリを開いて、テキストのディクテーションを開始できます。もし単語を誤認識したりスペルミスをしたりした場合は、Dragonに戻って修正するように指示できます。他の候補となる単語のメニューが表示されるので、その中から好きなものを選んでください。もし目的の単語が見つからない場合は、入力しておけば、Dragonは次回以降もその単語を覚えておくことができます。

テキストのどの部分をハイライト、斜体、下線、改段落などに適用するかを指定することもできます。設定が完了したら、Dragonにファイルを閉じる、印刷する、保存する、または別の文書を開くよう指示します。

他のツールよりも明らかに優れているものの、このソフトウェアにはいくつか気になる点がありました。例えば、ユーザープロフィールバーがブラウザの上部にうまく収まらず、雑然として場違いな印象を与えます。また、ウェブサイトを起動したり、ブラウザの新しいタブを開いたり(Windowsの音声認識のように)、アプリを閉じたりすることもできません。

Dragon Naturally Speaking Proのスクリーンショット
Dragon は他のアプリと統合されているため、PC や Web 全体で便利に利用できます。

しかし、最大の不満は、一部の人にとっては煩わしいと感じるかもしれない2つの追加ソフトウェアがインストールされることです。Nuanceの広報担当者によると、リッチインターネットアプリケーションサポートブラウザアドオンは「音声認識を使ってインターネットブラウジングをより細かく制御できる」とのことです。これは良さそうですが、私の経験では、頻繁にクラッシュし、ブラウザの速度が低下しました他のプラグインと同様にアンインストールできるので、ブラウザが関節炎の亀のように動き始めたら、どうすればいいのかお分かりでしょう。

付属ソフトウェア「Common Software Manager」のせいで、オンラインフォーラムは不満を募らせるユーザーで溢れかえっており、彼らは「マルウェア」などといった言葉を投げかけています。CSMはDragonのアップデートを定期的にチェックするだけですが、どのプログラムがなぜそれを実行しているのかがわからなければ、不安にさせられる可能性があります。Dragonの広報担当者は、CSMをアンインストールしてもDragon自体には何の影響もないと断言していますが、もちろん、アンインストールするとソフトウェアアップデートは利用できなくなります。

トークタイパー

Dragonは機能が豊富ですが、オンラインアプリのTalkTyperは全く逆です。音声入力機能があり、入力したテキストをどう処理するかについて、いくつかの基本的なオプションが表示されます。ミニマリズムを好む人にとっては、これで十分かもしれません。

TalkTyperのスクリーンショット
Web ベースのディクテーション ツール TalkTyper には Google Chrome が必要です。

TalkTyperはGoogleの音声アルゴリズムを使用しているため、効果的なツールのメリットを享受できます。もちろん、Google Chromeも必要です。右側にある緑色のマイクアイコンをクリックして、テキストを音声入力するだけです。画面上のテキストに問題がなければ、下矢印ボタンをクリックして、オプションのある下のボックスに移動します。

これらのオプションには、テキストをクリップボードにコピーする、メール送信する、印刷する、ツイートする、他の言語に翻訳する、などがあります。テキストを翻訳したい場合は、ボタンをクリックして翻訳言語を選択するだけです。TalkTyperは自動的に新しいブラウザタブを開き、テキストがGoogle翻訳に挿入されます。

TalkTyperはGoogleと同じくらい正確に単語を認識できると期待していましたが、私の深いスコットランド訛りを理解するのに苦労しました。はっきりと話しても、いくつかの単語でつまずいてしまい、それほど高度な技術を口述しているわけでもありませんでした。

TalkTyperは、メールやツイートなど、比較的簡単な内容、短い音声コンテンツにのみ使用してください。傑作を口述したい場合は、Dragonの方が適しています。

タズティ

「テイスティ」と発音されるTaztiは、2つの特徴で他のアプリとは一線を画しています。1つ目は、このアプリを使ってPCコマンドやゲームを音声で操作できることです。必要なコマンドがTaztiにない場合は、自分で作成することも可能です(ついでに299種類も作成可能です)。

Taztiのスクリーンショット
Taztiは、音声入力ではなく、指示を読み取ります。ゲームの操作、アプリの起動、さらにはコマンドラインの使用もサポートします。

インストールしたアプリを開く、ウェブサイトを起動する、ディレクトリを開く、コマンドラインを使うなど、Taztiは思い通りに設定できます。不要なコマンドは編集したり、完全に削除したりできます。「クリック」や「ダブルクリック」といったコマンドを使えば、マウスを使う必要がなくなります。

しかし、Taztiの大きな欠点は、文書にテキストを音声入力できないことです。これは音声認識ではないため、音声入力には向いていません。開発元のVoice Tech Groupは、ここで紹介した他の製品の方が音声入力機能に優れていることを認めており、同社は他の分野に注力することにしたようです。

むしろ、Taztiは、音声を使ってキャラクターを戦闘に送り出したいゲーマーや、キーボードを使わずにプログラムの起動、メディアプレーヤーの起動、Webブラウジングを行いたい障がいのあるユーザー向けに作られています。Taztiは音声入力機能を備えていないものの、Windowsの重要な機能を操作できるという点が、このリストに含める価値があると言えるでしょう。

Taztiは15日間無料でお試しいただけます。その後は40ドルかかります。

ドラゴンを征服した者はいない

5つのアプリ全てをテストした結果、Dragon NaturallySpeakingが競合アプリをはるかに凌駕していることは明らかです。Windows版は無料という利点に加え、非常に強力なライバルアプリですが、音声認識機能はDragonほど強力ではなく、目の前にあるフォルダを見つけられません。音声認識を頻繁に使用するのであれば、個人向けで75ドル(ビジネス向けで150ドル)を投資してDragonにアップグレードする価値はあるでしょう。

Windows内蔵アプリ、またはChromeブラウザのGoogleアシスタントで音声認識をお試しください。キーボードを使わずに操作できることの楽しさにきっと驚かれることでしょう。

Otpoo

Health writer and researcher with expertise in evidence-based medicine and healthcare information.