音声だけで入力できるWindowsの機能を長年絶賛してきたので、ついに実証することにしました。Windowsの音声アクセスとWindowsディクテーションを使って、この記事全体を「入力」してみました。思ったより簡単でした…そして、不思議なことに、より難しかったです。
Windows 11には、音声でPCを操作する2つの方法があります。Voice AccessとWindows Dictationです。Windows Dictationのオリジナル版はWindows 10で導入されました。Voice Accessでは音声だけでPC内を操作でき、Windows Dictationではドキュメントにテキストを音声入力できます。どちらもアクセシビリティを重視して設計されていますが、キーボードとマウス入力に慣れている人にとっては、生産性を向上させる可能性もあるかもしれません。
私が見つけた大きな問題は、単にコントロールに慣れることです。
確かに、Windows内で音声だけで入力するのはそれ自体が大変でした。しかし、音声だけでアプリケーション内を移動するのは、時にほぼ不可能に思えました。これは、Windows環境におけるアクセシビリティの向上にはまだまだ長い道のりがあることを浮き彫りにし、これらの機能に依存している人々が直面している課題を浮き彫りにしています。考えを音声で伝えることに慣れている人は生産性を劇的に向上させることができますが、テキスト内の移動に障害があると、その潜在的なメリットが損なわれてしまう可能性があることに気づきました。
音声アクセスとWindowsディクテーションの使い方
音声アクセスは、Windows 11のアクセシビリティメニューにあります。設定メニューを開き、「アクセシビリティ」>「音声認識」を選択します。音声アクセスをオンにする必要がありますが、音声入力を明示的に選択する必要はありません。音声アクセスをオンにすると、使い方に関する短いチュートリアルが表示されます。ハイライト表示された要素を音声で選択したり操作したりする方法を学ぶことができます。(音声アクセスをスリープモードにすることもできます。YouTube動画を視聴する場合はスリープモードにしておくと便利です。)

マーク・ハッハマン / IDG
最初のアドバイス:ヘッドセットか、ノイズキャンセリングマイクを搭載した高性能なノートパソコンを使うことをお勧めします。ミスをできるだけ減らしたいなら、高性能なマイクは高性能なキーボードと同等です。
しかし、すぐに問題が発生しました。Windowsはハイライト表示されたボタンをクリックするタイミングを理解できるほど賢いのですが、私にはそれすらできませんでした!まず最初に学んだのは、左利きだとディクテーションがうまくいかないということです。チュートリアルで音声アクセスを使おうとするたびに、「クリック」コマンドが右クリックと解釈され、機能しませんでした。マウスのデフォルト設定を右利き用に戻すと、左利きの私には少しイライラしましたが、問題は解決しました。

マーク・ハッハマン / IDG
ボタンのように、画面上の分かりにくい要素を操作したい場合、状況は複雑になります。ボタンがハイライト表示されている場合、「OKをクリック」と言えば、画面上の「OK」と書かれたボタンがクリックされます。ここまでは簡単です。しかし、ランダムに何かをクリックしたい場合は、少し複雑になります。
音声アクセスでは、グリッドシステムも採用されており、ページ上の要素を探し出して選択できます。Windowsでは、1から9までの数字が書かれたグリッドがオーバーレイに表示され、そこから個々の数字を選択してさらに拡大表示できます。「7をクリック」と言うと、カーソルが移動し、数字の付いた領域にあるものをクリックできるようになります。ただし、拡大表示には時間がかかり、必ずしも完璧に正確であるとは限りません。
Windows 11には、Windows自体を操作するための基本的なコントロールもいくつか含まれています。例えば、アプリを切り替えるには、「タスクスイッチャーを表示」というコマンドを発声します。するとAlt+Tabキーでタブメニューが表示され、アプリを切り替えることができます。ただし、これを行うには少し手間がかかります。手動でスクロールするか、グリッドシステムを使って選択肢を絞り込む必要があります。

マーク・ハッハマン / IDG
「切り替え」コマンドを使って、Edgeなどのアプリに直接切り替えることもできます。ただし、これには予想外の欠点もあります。例えば、複数のEdgeウィンドウを開いている場合、音声だけで切り替える方法が分かりにくいのです。私はナビゲーショングリッドを使用しました。
ファイルエクスプローラーを開くのは簡単だったのですが、ドキュメントフォルダを選択するのは、声だけではどうも無理でした。ここでもグリッドシステムを使うしかありませんでした。ショートカットがあれば問題を解決できたかもしれませんが、Microsoftのヘルプドキュメントを見ても、何をすればいいのかすぐには分かりませんでした。音声でWordに切り替えると、最近使用したドキュメントの一覧が表示されました。でも、声で選択できないなんて、途方に暮れてしまいました。
それでも、実際にテキスト エディターを使用するのに比べれば、Windows を操作するのは簡単でした。

マーク・ハッハマン / IDG
音声コマンドによる編集は悪夢だ
Windows 11の音声アクセスを使用すると、カーソルがテキストボックス内にある場合、自動的に音声入力が行われます。これは非常に簡単で、Windowsは話した内容をきちんと書き起こしてくれます。(ただし、独り言の場合はご注意ください。)
しかし、単語としてもアクションとしても、あるいは句読点としても解釈できる単語を使用すると、Windows は混乱します。
これには、デフォルトモード、ディクテーションモード、コマンドモードの3つのオプションがあります。ディクテーションモードでは、音声で自然に入力できます。Windowsは必要に応じて句読点を挿入したり、「カンマ」などの単語を使ったコマンドで入力したりできます。コマンドモードはWindowsを操作するために使用できます。デフォルトモードは、これら2つのモードを組み合わせたものです。
問題は、一部の編集機能はコマンドモードでのみ動作し、一部の編集機能はディクテーションモードでのみ動作することです。つまり、「行全体を削除」したい場合は、コマンドモードまたはデフォルトモードでそのコマンドを実行する必要があります。ディクテーションモードでは、そのコマンドは動作しません。一方、この記事のように、コマンドとして解釈される可能性のある単語をディクテーションする場合、ディクテーションモードしか選択肢がないこともあります。

マーク・ハッハマン / IDG
幸いなことに、音声アクセスウィンドウの右上にある小さな「?」アイコンをクリックすると、利用可能なコマンドのリストが表示されます。私は最終的に、それらをセカンドモニターに表示して、リファレンスガイドとして使うことにしました。
しかし、音声だけで編集するのは依然として非常に面倒です。中には簡単なものもあります。例えば、「enormous」を斜体にするのは、「italicize huge」と文字通り言うだけです。しかし、余分な文字を削除したり、同音異義語を正しい単語に置き換えたりするには、何をすべきか分かっていないと、何度も試行錯誤する必要があります。マウスを動かして単語を修正する代わりに、Windowsに段落を上に移動するように指示し、正しい単語をハイライト表示してから、必要な編集変更を行う必要があるかもしれません。(Windowsが名詞として認識されない場合もありますが、「capitalize Windows」と言えば修正できます。)
それでも、音声で単語を選択するのは簡単です。しかし、UI内を移動するのは本当に面倒です。(Windowsに「UI」をすべて大文字にするように指示するのも同じです。)WordPressをテキストエディタとして使っているのですが、すべてを正しく動作させるには、正確にクリックする必要がある細かい部分がたくさんあることにすぐに気づきます。ドロップダウンメニュー、右クリックオプション、グラフィック、カテゴリーの選択と追加など、私はすべて手動で行いました。支援技術の真価を理解する最も早い方法は、実際に自分で使ってみることです。
ハイブリッドアプローチが最も効果的
では、この記事のすべてを完全に音声で書いたのでしょうか?いいえ。音声入力自体は比較的楽でしたが、編集作業が大変でした。中には、ほぼデフォルトでディクテーションモードで書いている人もいます。私は、一度中断して書き始め、修正してから、また書き始めるという手順を踏んでいます。しかし、あまりに長く中断すると、Windows はそれをピリオドと解釈して新しい文を始めてしまいます。これも修正が大変です。
しかし、希望はあります。いわゆる「フロー状態」にある時は、音声入力は手で入力するのと同じくらい速く、あるいはそれ以上でした。そして、この速度はさらに向上するでしょう。マイクロソフトはWindowsのほぼすべての側面にAIを適用しています。支援技術にも同様のことが起こってくると期待しています。将来的には、私の文章とマイクロソフトによる解釈、そしてできればインタビューやプレゼンテーションの自動書き起こしが融合する、つまりディクテーション、タイピング、書き起こしのハイブリッドが実現することを願っています。
しかし、私が得たのは、支援技術への深い感謝と、それらを毎日使用しなければならないユーザーが直面する課題でした。Windows DictationとVoice Accessはシンプルですが、出力をプロフェッショナルなものにするために必要な最後の5~10%の労力こそが、真の課題なのです。