OpenAIは火曜日に、ChatGPTの画像生成エンジンの最新版(そして大幅にアップグレードされた)をリリースした。するとすぐにインターネット上では歓声が上がり、サウスパーク風のミームから大統領執務室のバービー人形の画像まで、あらゆるものの作成をAIに依頼する声が上がった。
しかし、ChatGPT の新しい GPT-4o 画像生成モデルの 1 つの偉業は、AI に飽き飽きしている人々でさえも、驚きの声を上げて黙り込んでしまうほどでした。
赤ワインはいかがですか?
見てください、ChatGPT は、赤ワインがぎっしり詰まったグラスの画像を、非常に確実にレンダリングできるようになりました。
プロンプト:render an image of a wine glass filled to the very top with red wine

ベン・パターソン/ファウンドリー
簡単なタスクのように思えますね。驚くべきことに、「ワイングラス一杯」テストは、ChatGPTとその旧型のDALL-Eエンジンを含め、多くの有名AIを困惑させてきました。
たとえば、Google の Imogen 3 が同じプロンプトを使用したときにテストに失敗した場合を以下に示します。

ベン・パターソン/ファウンドリー
Grok 3 もあまり良くありません。

ベン・パターソン/ファウンドリー
Microsoft の Copilot も挑戦しました。

ベン・パターソン/ファウンドリー
最新の Stable Diffusion モデルの 1 つである Flux を試してみたところ、次の結果が得られました。

ベン・パターソン/ファウンドリー
おっと。
「グラスワイン」トリックは、AIの画像レンダリング能力の正式なベンチマークではありません。むしろ、法学修士(LLM)に「イチゴ」という単語に「r」がいくつあるか尋ねるような、気軽なテストです。彼らは間違える傾向があり、時には笑ってしまうほどです。
なぜ、グラスにワインをぎっしりと注いだ画像を生成するAIはそれほど難しいのでしょうか?AIモデルは、事前にトレーニングした画像で最も高いパフォーマンスを発揮するというのが通説です。そして、赤ワインのグラスの画像の場合、通常は半分ほど注がれているため、「グラスにワインを縁まで完全に注いでください」という指示に対して、半分ほど注がれたグラスが生成されることが多いのです。
さて、本当に優れたAI画像生成器は(あるRedditユーザーが親切に説明してくれたように)、学習データにワインが一杯に注がれたグラスがなくても、グラスにワインが一杯に注がれた状態を「推定」できるはずです。あるいは、OpenAIの誰かが、この新しいモデルにワイングラスにワインがいっぱいに注がれた数十枚の写真を入力したのかもしれません。
もちろん、AI画像ジェネレーターにはもう一つ試練があります。それは、特定の時間に設定されたアナログ時計です。ChatGPTとその新しい画像ジェネレーターなら、きっと簡単にクリアできるでしょう? では、見ていきましょう。
プロンプト:render an image of a clock, with the hands showing 3:15

ベン・パターソン/ファウンドリー
次のプロンプト:good, but the clock hands MUST be at 3:15

ベン・パターソン/ファウンドリー
えっと、サム・アルトマンさんを呼び出していますか?
著者: Ben Patterson、TechHive シニア ライター
ベンは20年以上にわたり、テクノロジーとコンシューマーエレクトロニクスに関する記事を執筆しています。2014年からPCWorldに寄稿し、2019年にTechHiveに加わり、スマートスピーカーやサウンドバーからスマートライト、セキュリティカメラまで、あらゆるテクノロジーをカバーしています。ベンの記事は、PC Magazine、TIME、Wired、CNET、Men's Fitness、Mobile Magazineなどにも掲載されています。ベンは英文学の修士号を取得しています。