マイクロソフトがPCで「見て、感じて、理解する」ことを可能にする5つの方法

2年前、MicrosoftのKinect for Windowsは文字通りPCの目を開きました。そして今、Microsoftの研究者たちはPCに「見る」ことを教えています。

PCは長い間、ユーザーがキーボードを打ったりディスクを挿入したりするのをただ黙って待っていました。しかし、その後、PCは接続され、ユーザーの指示に応じて他のPCと通信するようになりました。先週開催されたMicrosoftのシリコンバレー・テックフェアで、同社の研究者たちは、PCを新たな方向に進化させている方法を示しました。マシンビジョンと新たな独立性を組み合わせることで、PCが見ているものを認識・解釈し、その情報を有用な文脈で提示できるようになるのです。

Googleや他のシリコンバレーの企業とは異なり、Microsoftは伝統的に民間企業というよりは公立大学のような運営を行っており、年に1、2回、同様の研究発表会を開催しています。確かに、Cortanaデジタルアシスタントのように後に製品化されるような研究成果は、一部は非公開としています。しかし、より多くの研究成果は、同社の技術的専門性を誇示するとともに、今後の方向性を示すためにも、一般に公開されています。

マイクロソフトの研究者たちは先週、合計で約18のプロジェクトを発表しました。私たちはそのうち5つを選びましたが、そのうち4つは何らかの形でKinectを組み込んでいました。もちろん、マイクロソフトがすべてのプロジェクトで大成功を収めたとは考えていません。結局のところ、将来の成功は過去の失敗の上に築かれることが多いのです。

あなたのウェブカメラ：次世代のKinect

Microsoft Build に関する当社の報道を注意深く読んでいた人にとっては、Vivek Pradeep によるこのプレゼンテーションはそれほど目新しいものではないはずです。Microsoft Kinect for Windows のエグゼクティブ Michael Mott 氏は、PCWorld に独占的に、Microsoft が Microsoft Kinect のように従来の Web カメラを深度カメラとして使用するための取り組みを積極的に行っていることを明らかにしました。

この動画では、プラディープ氏と彼の同僚が「MonoFusion」と呼ぶ技術を披露しています。概念的には、説明は非常に簡単です。2人の研究者は、改造されていないウェブカメラを使って、カメラをパンさせながら風景を撮影します。その裏では、Microsoftのソフトウェアが奥行きの観点から捉えた映像を解釈し、Kinectのような方法で物体の3Dモデルを作成します。そして、ソフトウェアは物体にカラーマップ、つまりテクスチャを適用することで、ぬいぐるみのコレクションを撮影した動画を、動物そのもののモデルへと変換します。

マイクロソフトテックデイウェブカメラ 3 — MonoFusion が認識するもの: 生のフィード、深度マップ (右)、テクスチャ付き 3D オブジェクト。

プラディープ氏によると、マイクロソフトが開発したSDKは、画像を取得し、3Dモデルをゲームや拡張現実（AR）アプリケーションにエクスポートするためのシンプルで強力なSDKです。これは確かにあらゆる可能性を秘めています。

ジェスチャー認識機能付きフローティングディスプレイ

約1年前、マイクロソフトの研究員であるジンハ・リー氏は、偏光ガラスとインテリジェントソフトウェアを組み合わせることで、奥行きのあるデスクトップのような錯覚を生み出す、驚異的な3Dデスクトップを発表しました。そして今、マイクロソフトの研究員であるティム・ラージ氏は、似たような錯覚を生み出す、2つ目の物理的な「フローティングディスプレイ」を開発しました。

ラージ氏によると、このアイデアは、従来の2Dディスプレイの上に、液晶モニターから発せられる特定の光域に「調整」された一連のプラスチックフィルムを貼り付けるというものだ。下のビデオで実演されているように、このフィルムはモニターの上に「浮かぶ」セカンドスクリーンを投影する。もう一人の研究者、徳田豊氏も、Kinectを用いて錯覚を微調整することで、セカンドスクリーンのコンテンツをメインディスプレイの上に重ね合わせることが可能であることを実証した。

ラージ氏と徳田氏は共に、セカンドディスプレイを通してデジタル作品に命を吹き込むというアイデアを示唆していましたが、マイクロソフトがここで何を実現しようとしているのかは分かりません。ニュース、天気予報、フットボールの試合などでは、動画の上に情報を重ねて表示することは当たり前になっていますが、PC画面に不要な情報が多すぎると問題が生じる可能性があります。両氏とも、特定の要素を詳しく見るためにフォーカスを当てるというアイデアを試みているようです。

2013年3月、マイクロソフトはPerceptive Pixelの巨大タッチスクリーンディスプレイを巨大なビデオホワイトボードとして活用し、従業員の業務を支援する方法を示すことに注力しました。今のところ、このフローティングディスプレイは、実現を待つばかりの頭痛の種でしかないようです。

ViiBoard: 共同注釈

マイクロソフトのフローティングディスプレイが少々無理があるように思えるなら、ViiBoardは現代の職場環境の延長線上にあるように感じられます。そのコンセプトは極めてシンプルです。KinectセンサーとPerceptive Pixel（PPI）ディスプレイを組み合わせることで、ホワイトボードのようにディスプレイに近づくユーザーを認識し、書き込んだ内容は色分けされて保存されます。

マイクロソフトのシニアリサーチエンジニア、Yinpeng Cheng氏（彼は自身のプロジェクトをVtouchと呼んでいます）によるデモは、驚くほど洗練された仕上がりを見せています。例えば、ユーザーがディスプレイに近づくと画面が暗くなります。手を上に振るとユーザーメニューが表示され、ユーザーが画面の左右に動いてもメニューが追従します。また、10本の指で「タイピング」のジェスチャーをすると、キーボードが表示されます。指でもスタイラスでも、ペンで描いた線はユーザーがどちらの手で描いているかによって色分けされ、波線はジェスチャーだけで素早く消すことができます。

チェン氏は、VTouchをホワイトボード（または彼が「タッチボード」と呼ぶもの）をコラボレーションを通じてより価値あるものにする手段だと述べている。そして、少数の無料サードパーティ製オフィススイートがMicrosoft Officeの機能を模倣するだけでなく、その方向性を定め始めている。今のところ、それはドキュメントの共有とコラボレーションに限定されている。しかし、会議室で会議を開いたり、離れた場所にいる参加者同士で共同作業を行ったりすることが多い企業にとって、VTouchやViiBoardは、SkypeやPPI専用アプリの将来的な改善を示唆する可能性がある。

動物（そしてあなた）のリアルタイム追跡

Microsoft Research の計算生態学および環境科学グループは、生物学者やその他の動物研究者が野生の動物を追跡し、学習するのを支援することを目指しましたが、彼らが開発したテクノロジは、法執行機関や軍隊にも確実に応用できます。

マイクロソフトリサーチの科学者、ルーカスジョッパ氏は、自身の研究は 3 つの要素で構成されていると述べた。それは、ビデオに記録された物体を追跡するソフトウェアアルゴリズム「Zootracer」、重さ 7 グラムの GPS 対応追跡装置「Mataki」、そして、象や車など、Mataki 装置を運ぶものなら何であれ無線通信し、ロックオンするように設計された無人ドローンである。

Zootracerは最初はかなり鈍い動作でした。ビデオやKinectで記録された物体は識別できますが、かろうじてです。Joppa氏は、ユーザーがハチなどの物体がポイント間を移動する際に、アルゴリズムにその物体を識別する方法を「教える」必要があることを実演しました。しかし、ハチを複数回停止させて識別することで、センサーは画面上を移動するハチを追跡し始めました。

ミツバチに関しては、それはそれで良いでしょう。しかし、より大きな動物とその環境についてより深く知るために、マイクロソフトは動物に装着できるセンサーパッケージ「Mataki」を開発しました。Matakiは短距離無線メッシュ通信を用いて、その知識を別のセンサーに転送することができます。さらに、それだけでは不十分な場合に備えて、マイクロソフトは急降下してデータを取得できるドローンを開発しました。あるいは、センサーからストリーミングされるGPSデータを用いて、特定のMatakiセンサーを上空から「ロックオン」して追跡することも可能です。

後者の機能は確かに眉をひそめるかもしれない。しかし、JoppaがAmazonにひっそりと引き抜かれたとしても、驚くことではないかもしれない。ショッピングサービスや宅配サービスは、利用者の居場所を正確に把握しているべきであり、配達時間を数分短縮できれば、ショッピングドローンの効率化につながるかもしれない。たとえそれが今のところSFの夢物語だとしても。

プリンタブルエレクトロニクス

3Dプリンティングはますます普及していますが、そのためには3Dプリンターと基板への時間、費用、そして材料の投資が必要です。一方、「サブトラクション」プリンターは、材料の塊をエッチングで削り取ることが可能です。ある意味では、私たちは数十年前からコンピューターチップを「3Dプリント」しており、フォトリソグラフィーを用いてシリコンをエッチングで削り取ってきました。同様に、インクジェットプリンターで金属インクを使ってコンピューター回路を「プリント」することもほぼ当たり前になり、自宅でもできるようになりました。

しかし、マイクロソフトの研究員であるスティーブ・ホッジス氏（1:13から）は、この2つを組み合わせた興味深い手法を披露しました。チップが埋め込まれた少数の小さなプリント基板を使い、ホッジス氏は100ドルの改造インクジェットプリンターで金属の接続配線を写真用紙に印刷しました。そして、3Mの導電性両面テープを使って、マイクロプリント基板を紙に貼り付けたのです。こうして、モーションセンサーのような、手軽で簡単な自作製品が完成しました。

マイクロソフトテックデースティッキーチップス — 研究者たちは、チップを写真用紙に接続するために導電性の両面テープを使用しました。

すでにいくつかのデザインショップでは、あらゆるもののモデルを作成するために3Dプリンターを活用しています。安価で簡単に作れるロジックボードを追加することは、長期的な開発には必ずしも実用的ではありませんが、迅速なプロトタイピングには3Dプリンターと同じくらい便利に思えます。

PCが見て、聞いて、理解するということの意味を理解し始めたばかりです。これまで、私たちは文化として、デジタルアシスタントのような創造物が私たちの生活をいかに豊かにしてくれるかに驚嘆しながらも、私生活への侵入に強い疑念を抱いてきました。そして、Google Glassのようなウェアラブルデバイスが私たちの社会生活をスパイしようとする試みを制限しようとする一方で、PCが家庭やオフィスにさらにアクセスすることを許してしまうかもしれません。しかし、PCが目を開けて周囲を見回したときに何をするのかは、今のところまだ研究段階です。

4 月 28 日に更新され、IDG News Service からのビデオレポートが追加されました。