Latest evidence-based health information
Ipad

安定拡散でAIアートを作成するとPCがクラッシュする

安定拡散でAIアートを作成するとPCがクラッシュする
安定拡散でAIアートを作成するとPCがクラッシュする

ほとんどの人が高性能なゲーミングノートPCを購入するのは、もちろんゲームをプレイするためです。中には、ゲームをプレイしたりストリーミングしたりするために購入する人もいます。しかし今、高性能PCを購入する全く新しい理由があります。それは、自分のPCで自分だけのAIアートを作ることです。

AIアートは魅力的です。プロンプトを入力するだけで、アルゴリズムがあなたの指定通りの画像を生成します。一般的に、これらはすべてWeb上で行われ、DALL-E、Craiyon、Latitude Voyage、Midjourneyなどのアルゴリズムが使われています。しかし、こうしたクラウドコンピューティングにはコストがかかります。リクエストがキューに滞留したり、リクエスト数が制限されたりするのです。例えば、優れたAIアートアルゴリズムであるMidjourneyは、200枚の画像で月額10ドルかかります。

AIアートから収益を生み出すことが、アルゴリズムモデルが一般公開されていない理由の一つです。(もう一つの理由は、作成者が、それらが偽情報、暴力的な画像、あるいは著名人の中傷的な表現に利用される可能性を懸念していたことです。)Stability.AiとそのStable Diffusionモデルは今週、この常識を打ち破り、一般公開され一般向けGPUで実行可能なモデルを発表しました。

Stable Diffusionは、クレジットベースのサービスであるDreamStudioから入手できるほか、多くのAIコードプロジェクトの本拠地であるHuggingFaceでも公開デモが公開されています。また、モデル自体をダウンロードして、自分のPCで無制限にアートを生成することも可能です。ただし、少し手間がかかります。HuggingFaceで無料のユーザー名とパスワードを登録する必要があります。登録することで初めて、Stable Diffusionのコード自体にアクセスできるようになります。

Stability.Aiは、コードに付属するReadmeファイルに記載されているCreativeML OpenRAIL-Mライセンスの下でモデルをリリースしました。このライセンスは、基本的に、画像がフォトリアリスティックではないことに同意すること、そしてHuggingFaceのログイン情報をモデル作成者と共有することに同意することを規定しています。また、人々にとって敵対的または疎外感を与えるような環境を作成しないこと、暴力や流血表現を含む画像を作成しないことにも同意します。このモデルにはコンテンツフィルターが含まれていますが、既に様々なコードフォークによって回避されています。

安定拡散生成アート安定拡散生成アート

安定拡散に関するプロンプト:「魔法使いの塔が砂漠からそびえ立つ、夕方、芸術的、詳細、ファンタジー美学」(左)と「植物の葉の上の滴の水の中にある未来都市、詳細、8K、SF」(右)。

Stable Diffusion をインストールするには、AssemblyAI のチュートリアルに従って「実際の」Stable Diffusion コードをインストールするか、推論時間を長くする代わりに VRAM 使用量を減らすように最適化されたコードのフォークをインストールするための別の手順に従うことをお勧めします。(後者のコードはサードパーティのフォークであるため、理論上は未知のコードを PC にインストールすることにはリスクが伴うことに注意してください。)

いずれにしても、モデル本体(約4GB)といくつかのサポートファイルをダウンロードする必要があります。また、サードパーティ製のPythonアプリケーションをインストールするか、2020年にGPUコンピューティング機能を追加したWindows Subsystem for Linuxを使用する必要もあります。基本的に、インストールにはLinuxの命令をいくつかコピーし、ファイル名を調整するだけで済みます。

現時点では、Stability.Aiは6.9GB以上のビデオRAMを搭載したGPUを推奨しています。残念ながら、現在はNVIDIA GPUのみがサポートされていますが、将来的にはAMD GPUのサポートも追加される予定です。

見た目は良くないが、機能する

これらすべてが、Linux用であろうとWindowsアプリケーションであろうと、あるいは少なくともWindowsフロントエンドであろうと、最終的にはGUI駆動型アプリケーションにバンドルされることはほぼ確実でしょう。しかし今のところ、プロンプトはLinuxのコマンドラインインターフェースから入力されます。これは見た目ほど面倒ではありません。コード全体を一度入力し、上矢印をタップするだけで前の入力内容を表示できるからです。

したがって、プロンプトは次のようになります。

python scripts/txt2img.py --prompt "a wizard's tower rises from the desert, evening, artistic, detailed, fantasy aesthetic"

チュートリアルの指示に従って、結果画像のサイズ、アルゴリズムが画像を生成するために使用する反復回数などの修飾子を追加することもできます。

ノートパソコンが酷使されるのを覚悟しましょう

ただし、注意が必要です。この時点で、Stable Diffusion は PC に深刻な負担をかけ始める可能性があります。より多くの画像、より高解像度の画像、そしてより多くの反復処理はすべて、追加の処理能力を必要とします。このアルゴリズムは、システムメモリ、SSD、そして特に GPU とそのビデオ RAM に最も負荷をかけるようです。

Surface Laptop Studio(H35 Core i7-11370H、16GB RAM、GeForce RTX 3050 Ti、4GB GDDR6 VRAM)でStable Diffusionをロードしてみましたが、予想通り「VRAM不足」エラーが発生しました。別のゲーミングノートPC(Core i7-11800H、16GB RAM、RTX 3060ノートPC GPU、6GB GDDR6 VRAM)で実行したところ、コードフォークが低VRAM向けに最適化されていたため、問題なく動作しました。(テスト用のデスクトップPCが手元にありませんでした。)

それでも、5枚の画像(デフォルト)を生成するには、解像度512×512で50回の反復処理を行い、1枚あたり約10分かかりました。対照的に、クラウドでホストされている同じアルゴリズムを使用するDreamStudioでは、約2秒で完了しました。ただし、もちろん、画像生成に使えるクレジットの量は非公開です。

これまで試したAIアルゴリズムの中で、MidjourneyとLatitude Vantageは今でも最高のAIアートジェネレーターだと考えています。Stable Diffusionの結果にはそれほど感銘を受けませんでした。とはいえ、AIアートの多くは「プロンプトクラフト」、つまり適切なコマンドを入力して真にクールなものを生み出すことにかかっています。しかし、Stable Diffusionの素晴らしい点は、高性能なPCをお持ちであれば、アルゴリズムアートを好きなだけ微調整して、本当に素晴らしい作品を生み出すことができることです。

Otpoo

Health writer and researcher with expertise in evidence-based medicine and healthcare information.