Latest evidence-based health information
Ipad

Google Voiceの失敗:文字起こしの失敗

Google Voiceの失敗:文字起こしの失敗
Google Voiceの失敗:文字起こしの失敗

Google Voiceは、Googleが買収しGrand Centralという名前だった頃から、数年前から使っています。このサービスの優れた機能の一つは、音声メッセージを文字起こしして受信トレイに送信できることです。これにより、作業を中断することなく、いつでも簡単に着信に応答できます。もしこの文字起こしがほとんどの場合に意味を成すようであれば、このサービスは驚くほど便利なものになるでしょう。

Googleボイス

残念ながら、Google Voiceの文字起こしを理解しようとすると、多くの場合、かなりの推測が必要になります。というのも、私が受け取るテキストは、発信者が残した元のメッセージとほとんど似ていないことが多いからです。ほとんどの場合、少なくとも誰が電話をかけてきたのか、そして何を望んでいたのかは大まかに把握できます。しかし、私が受け取る文字起こしの少なくとも3分の1は、発信者が誰なのかさえも分からないほど誤りだらけです。

Googleの巧みな機能の例をいくつかご紹介します。発信者が何を言っているのか推測してみてください。そして、トランスクリプトの下にある音声ストリームをクリックして、実際のメッセージを聞いてみてください。

この最初のメッセージは、正確な書き起こしと全くのナンセンスが混ざり合った、典型的なものです。バーベキューに誘われているのは分かりますが、「ああ、こんなことがあって本当によかった」がどういう意味なのか全く分かりません。ましてや「たくさんの、巨大なボルトロック式の」なんて、全く理解できません。音声録音を聞かなければ、このメッセージに適切に返信するのは難しいでしょう。

幸いなことに、Googleは文字起こしの信頼性を示すために、様々なグレーの濃淡を使用しています。一般的に、グレーの濃淡が濃ければ濃いほど、内容の信頼性は低くなります。もちろん、テキストがほとんど意味不明な場合も、かなり良い指標になります。

発信者がつぶやきながら話す場合、以下の例のように、問題はさらに大きくなります。

「卸売りで大丈夫ですか?」正直に言うと、そのメッセージに実際に何と書かれていたのかは100%確信が持てませんが、Googleの推測は大きく外れていたのは確かです。

興味深いことに、長いメッセージは短いメッセージよりも少しだけ良い結果を出す傾向があります。おそらく、サービスが的を射る機会が増えるためでしょう。上記のメッセージでは、Googleはかなりの部分を正しく認識しています。しかし、「醸造所」というキーワードと、友人が尋ねたビールの名前のある程度の近似値にヒットしなければ、メッセージの内容を推測できる文脈は全くありません。

「pays love the embedded(埋もれたものへの愛を支払う)」や「the vitamin of there(そこのビタミン)」のような誤記は友人のアクセントのせいだと考えることもできるが、このメッセージは実際には、典型的なカリフォルニアの「TV Land」アクセントを持つ人々から送られた多くのメッセージよりもはるかに優れている。

「ヒット・ザ・マクシー・オン?」どういう意味かはよく分からないけど、インセプションを見ようと思ってたんだ。メッセージを聞かなくても、この発信者(同僚だけど(仕事のメインの電話番号はGoogle Voiceを使ってる))は、番組中に私を抱きしめようとはしていないだろう。留守番電話の文字起こしを誤解したら、人事部長との面談に発展しかねない。

上のメッセージは、Google Voiceの優れた機能の好例と言えるでしょう。多くの単語が間違っているにもかかわらず、メッセージをきちんと読まなくても、発信者が何を尋ねているのかは分かります。同様に、下の電話はラフティングへのお誘いであることが一目で分かります。

ええ、そうです。メッセージを聞いてみると、テキストはほぼ正しいことがわかります。しかし、この書き起こしが興味深いのは、Googleの書き起こしアルゴリズムについて何かが明らかになる点です。発信者が日曜日にラフティングに行くと言った後、Google Voiceは「Yosemite」という単語を聞き取ります。これは「Sunday」となんとなく似た発音なので、Google Voiceは同じ単語だと認識したようです。このような文脈上の関連性はGoogle Voiceの失敗で頻繁に発生し、文脈上は一貫性があるものの、発信者が残した実際のメッセージとは全く関係のない文章になってしまうことがあります。

次: 同じメッセージ、異なるトランスクリプト、そして結果を改善する方法。

同じメッセージ、異なるトランスクリプト

昔からの友人(ジョンソン氏と呼びましょう)が、ただ世間話をするために頻繁に電話をかけてくるのですが、彼のGoogle Voiceメッセージには、面白いほど多くの転記ミスが見られます。

ここで、Googleが利用可能なデータからテキストを推測する手法をさらに詳しく見てみましょう。ジョンソンは実際には「こんにちは、ボブ」とは言っていませんが、Googleは私の名前がロバートであることを知っており、実際に何を言っているのか分からないため、単に「こんにちは、ボブ」と付け加えているのです。

しかし、ジョンソンのメッセージはほとんどの場合、基本的に同じだ。「ストロメイヤーです。ジョンソンがちょっと『やあ』って言いたくて電話しました。以上です。また後で話しましょう。じゃあね。」しかし、Googleは様々な異なる(そして同様に不正確な)方法でそのメッセージを転記している。

本当に諦めてください。それとも諦めるべきでしょうか?

あなた自身のトランスクリプトを改善する

自動音声文字変換はまだ完璧とは程遠いものですが(そしてここで見てきたように、多くの場合理解できるほどではありません)、短期間で大きく進歩しており、Googleは継続的に改善に取り組んでいます。読み上げた文字変換の下部にある「文字変換は役に立ちましたか?」というボックスにGoogleにフィードバックを送信することで、Googleの取り組みにご協力いただけます。

書き起こしがうまくいき、必要な情報が得られたら、チェックマークをクリックします。大きくずれている場合は、Xをクリックします。いずれの場合も、Googleは書き起こしアルゴリズムの改善に役立てるため、そのボイスメールをサービスに提供するよう依頼します。

もちろん、メッセージが非常に個人的な内容であれば、Googleに使用を許可したくないかもしれません。しかし、この記事で取り上げたようなありふれた内容であれば、あなた自身やGoogleを利用するすべての人にとってより良いサービスとなるよう、共有してもほとんど害はありません。

他のGoogleサービスと同様に、Google Voiceは無料です。そのため、文字起こしの精度が期待ほど高くなくても文句を言うのは難しいでしょう。多少の奇妙な(そして時には面白い)間違いを許容し、時折ボイスメールをプロジェクトに寄付していただけるなら、このサービスから真の価値を得ることができます。ただし、文字起こしの内容を鵜呑みにしないでください。

ロバート・ストロメイヤーはPCWorldの編集長です。Twitterで@rstrohmeyerをフォローしてください。

Otpoo

Health writer and researcher with expertise in evidence-based medicine and healthcare information.