年齢を推測したり、犬の品種を分類したり、有名人の似顔絵を見つけたりするのに加え、マイクロソフトの研究者は写真の内容を識別する新しいツールを発表しました。
CaptionBotでは、ユーザーは任意の写真をアップロードでき、Microsoftは様々な認識サービスを用いて、その場で何が起こっているかを説明します。これには、有名人の識別、感情の認識、シーンに登場する基本的な物体の説明などが含まれます。
このようなパーティートリックは以前にも見かけました。昨年、Wolfram Alphaが同様のツールをリリースし、現在もImageIdentify.comで利用可能です。Wolframのツールは特定の動植物の識別に優れているようですが、CaptionBotはシーンそのものについてより詳細な情報を提供します。(例えば、Wolframはこの画像をゴールデンレトリバーと識別しますが、CaptionBotは「草に覆われた野原の上に立っている犬」と表現します。)

マイクロソフトが最近、Tayチャットボットをめぐる騒動を起こした。ユーザーがTayに人種差別や女性蔑視の発言をするようにプログラムしたため、CaptionBotを不快な可能性のある画像に対してテストする人が現れるまで、そう時間はかからなかった。しかし、マイクロソフトは今回は歯向かなかった。このボットはポルノ画像には反応せず、「不適切なコンテンツかもしれないので表示しません」と言い、Business Insiderによると、アドルフ・ヒトラーの写真は「今は気分が良くありません」と言い、識別しないという。(ただし、ヨシフ・スターリンの写真は「帽子をかぶった幸せそうな男性」と識別した。)
これらの動作がTayの失態に対する意図的な反応としてどの程度まで行われているかは不明ですが、少なくとも一部のブロックは設計によるものです。CaptionBotの開発にあたり、マイクロソフトはBing Image Search API、Emotion API、そしてComputer Vision APIを活用しました。Computer Vision APIは有名人を認識し、不要なコンテンツやアダルトコンテンツをブロックすることができます。
これがなぜ重要なのか: CaptionBot自体は単なる時間稼ぎに過ぎませんが、その基盤となる技術は、企業や開発者に既成のAIおよび機械学習ツールを提供するというMicrosoftの最近の戦略の大きな部分を占めています。CaptionBotは、画像認識ツールが現代のコンピューティングにもたらす潜在的な影響を示すだけでなく、人間の目を完全に代替できるようになるまでには、まだどれほどの進歩が必要なのかをも示しています。