AIアートがテキストから2D画像、そして3D動画生成へと進化するのに、わずか数年しかかかりませんでした。そして今日、GoogleのGenie 2によって、AIアートはさらに進化を遂げました。Genie 2は、シンプルなテキストプロンプトから、即座に構築されるプレイ可能な3Dゲームワールドを生成できます。
GoogleのGenie 2は、AIを活用して新しいインタラクティブな環境をリアルタイムで構築するGenerative Interactive Environments(生成インタラクティブ環境)の進化形です。2月にリリースされたGenie 1は2D環境の構築が可能でしたが、本日Googleが発表したGenie 2は、それを3D空間へと拡張します。
GoogleはGenie 2を「ワールドモデル」と呼んでいます。これは、アニメーション、物理法則、オブジェクトのインタラクションなどを用いて仮想世界をシミュレートできることを意味します。これは2段階のプロセスです。Genie 2は、世界を外挿するためにプロンプト画像を必要としますが、その画像自体は通常のテキストプロンプトで生成できます。サイバーパンク西部劇がお望みなら、Genie 2が作ります。セーリングシミュレーションも、もちろん可能です。必要なのは、参照資料かプロンプトだけです。

グーグル
Googleの場合、Imagen 3で生成された画像と、アーティストが手描きしたコンセプトアートが使用されました。プレイヤー(AIまたは人間)は、ゲーム世界内で環境とインタラクトすることができます。Googleのデモでは、従来のWASDキー設定に加え、矢印キーも代替として使用されていました。
しかし、問題は一貫性です。何らかの理由で、モデルは短時間、通常は約20秒後に一貫性を失ってしまいます。(Googleが作成した「最長」モデルは1分間の長さでした。)

グーグル
その理由の一つは、モデルが「反事実」、つまりプレイヤーが固定された出発点から選択できる様々な経路や行動(例えば、分岐点で左に曲がるか右に曲がるか)を生成できることにあると考えられます。モデルは「長い地平線」、つまりプレイヤーがシーンから背を向け、再びシーンに向かったときに何が起こるかを考慮する必要があります。

グーグル
Googleによると、Genie 2はアイソメトリックビュー、三人称視点のドライビングビデオ、一人称視点など、様々な視点に対応できるとのことだ。水のエフェクトや、環境との複雑なインタラクションも考慮されている。あるデモでは、プレイヤーが風船を切り裂き、風船が割れる様子が再現された。煙、重力、反射などはすべてモデル化されているが、Googleはモデルがどの程度の解像度でレンダリングされるのか、またフレームごとに何個のポリゴンが計算されるのかについては明らかにしていない。
Genie 2の環境は人間だけのものではありません。AI「プレイヤー」もNPCまたはプレイヤーキャラクターとしてモデル化できます。Googleは、テキストプロンプトを使ってAIに特定のドアを通るように指示する方法、そしてAIがコマンドを認識し、レンダリングされた環境でその意味を理解し、先へ進む様子を実演しました。

グーグル
Googleは、Genie 2に必要なコンピューティングリソース、一般公開の予定、さらには商用化の計画さえも明らかにしていない。しかし、AIが生成した会話を通じてゲームにAIが徐々に浸透しつつあることから、AIシミュレーションゲームもいずれ現実のものになる可能性が考えられる。ただし、すぐには実現しないだろう。
著者: マーク・ハッハマン、PCWorld シニア編集者
マークは過去10年間、PCWorldに寄稿しており、テクノロジー分野で30年の経験があります。PCWorldだけでも3,500本以上の記事を執筆しており、PCマイクロプロセッサ、周辺機器、Microsoft Windowsなど、幅広いトピックを扱っています。PC Magazine、Byte、eWEEK、Popular Science、Electronic Buyers' Newsなどの出版物にも寄稿しており、Electronic Buyers' Newsでは速報ニュースでジェシー・H・ニール賞を受賞しました。最近、オフィスのスペースが足りなくなったため、数十台のThunderboltドックとUSB-Cハブを寄贈しました。