AI画像ジェネレーターがここ数ヶ月でどれほどの注目を集めているかは、言うまでもありません。それもそのはず、ディープラーニングモデルの進歩を鮮やかかつ遊び心のある方法で実証しているからです。Googleが2015年にDeep Dreamで一般公開した、ニューラルネットワークで生成された無秩序なランダム画像から、Open AIのDall-E 2、 MidjianのMidjourney、 Stable DiffusionのDreamStudioといったジェネレーターによる、ほぼ写真のようにリアルな画像へと進化を遂げてきました。
さらに読む: AIアートの作り方:DALL-E mini、AIダンジョンなど
ジェネレーターはクラウドだけでなく、ご自身のPCでも利用できるようになりました。ただし、十分な処理能力が必要です。この記事では、LMUミュンヘンのCompVis研究グループと外部パートナー、そしてStability AI社が共同で開発している無料ソフトウェア「Stable Diffusion」を使用した画像ジェネレーターを紹介します。
AIと学習データはどちらも比較的寛容なライセンスの下に提供されています。非営利団体LAION(Large-Scale Artificial Intelligence Open Network)は、2022年に585万枚の画像とその説明を含む無料データベースを公開しました。このデータベースはStable Diffusionの学習に使用されています。このデータベースはクリエイティブ・コモンズ・ライセンスに基づいており、画像自体は含まれていませんが、説明とウェブ上で公開されている画像素材へのリンクが含まれています。
Dall-EやMidjourneyと同様に、Stable Diffusionにはテキストから画像へのパーサーが搭載されています。このパーサーは人工知能を用いて入力を処理し、入力された希望にほぼ一致する画像の説明から新しいモチーフを作成します。Stable Diffusionは、学習済みのモデルからこれらの新しく生成された画像の素材を取得します。

完全なパッケージ: NMKD Stable Diffusion GUI は、画像ジェネレーターとしての Stable Diffusion のすべてのコンポーネントのインストーラーを提供するため、Windows ユーザーに比較的簡単な開始を提供します。
IDG
この記事では、Windows向けの2つのプログラム「NMKD Stable Diffusion GUI」と「Automatic 1111 for Stable Diffusion」を紹介します。どちらのツールもそれぞれ異なる機能を備えており、いずれの場合も高性能なハードウェアが必要です。生成AIを実行するには、8GBのVRAMを搭載した最新のグラフィックカード(NvidiaまたはAMD)と16GBのRAMがPCに搭載されている必要があります。つまり、これらのハードウェアは高性能なゲーミングPCに相当します。これらのツールは、性能の低いPCでも使用できますが、その場合は動作に時間がかかる可能性があります。
NMKD:成功のスタート
Stable Diffusionのチームは、画像生成AIソフトウェアのソースコードを2022年という早い時期に公開しました。当初は少数の研究者向けにベータ版として提供し、その間に無料ライセンスを策定していました。Stable Diffusionは、Open-RAILライセンスの条件に基づき、2022年8月からすべての関係者に公開されています。
Pythonのソースコードが公開されたことで、独立系開発者たちはクラウドを使わずに自分のコンピュータにローカルインストールできるバージョンをすぐにリリースするようになりました。その背景には、画像生成だけでなくモチーフ自体の自由度を高めるという狙いがあります。Stable Diffusionのローカルインストール版は、特に忍耐強いユーザーにとって、実験のためのパラメータがはるかに豊富になるからです。

アップデート:NMKD で何も結果が得られなくても、心配しないでください。内蔵のアップデータが、主にバグが修正された新しいバージョンをコンピューターにダウンロードします。
IDG
Stable Diffusionで生成された画像は、ほとんどの個人的用途、さらには商業用途にも自由に使用できます。ただし、使用にはいくつかの詳細な制限事項があり、この記事の最後にあるボックスで詳しく説明しています。
Stable Diffusion には Python といくつかの Python モジュールが必要です。Linux ユーザーにとっては簡単ですが、64 ビットの Windows システムでは Python モジュール、Stable Diffusion、そして AI モデルのインストールは容易ではありません。無料ツールの NMKD Stable Diffusion GUI を使うと、この作業が大幅に楽になります。
開発者はダウンロードにあたり(任意の)寄付をお願いしています。インストールパッケージは2種類あり、1つは3GBのモデルデータ付き、もう1つは1GBのモデルデータなしです。どちらの場合も、高度に圧縮された7zアーカイブファイルが提供されます。解凍には圧縮プログラム7-Zipが必要です。ちなみに、完成したモデルを含むNMKD Stable Diffusion GUIは、任意のフォルダに解凍すると、データメディア上で7.6GBという大きなサイズになります。
モデル: Nvidiaカードが有利
お使いのコンピューターに4GB以上のビデオRAMを搭載したNVIDIAグラフィックカードが搭載されており、NVIDIAドライバパッケージ「Geforce Experience」から最新のNVIDIAドライバをインストール済みであれば、すぐに使い始めることができます。これは、Stable Diffusionが他の多くのAIアプリケーションと同様に、グラフィックカードのシェーダー上で浮動小数点演算を実行するNVIDIAのCUDAインターフェースに最適化されているためです。
解凍したディレクトリにあるプログラムファイル StableDiffusionGui.EXE を呼び出すと、Stable Diffusion の英語版グラフィカルユーザーインターフェースが起動します。ウェルカム画面の後、設定画面のあるプログラムのメインページが表示されます。一番下には、Nvidia カードが CUDA インターフェースの使用を認識したかどうかを示すログが表示されます。
ちなみに、開発者はその間にNMKDの新バージョンをリリースし、多くの改良が加えられている可能性があります。右上のメニューバーにある矢印付きのモニターアイコンをクリックし、「アップデートをインストール」というサブ項目をクリックすることで、アップデートをインストールできます。
AMDカードの場合: モデルを適応
AMDグラフィックカード(ビデオRAM 6GB以上)をお使いの場合、NMKDの起動は少し面倒です。これは、事前に追加の手順が必要となるためです。提供されているモデルは、このグラフィックカードメーカーがCUDAインターフェースを持っていないため、AMDには適していません。提供されているモデルをAMD用に変換することは可能ですが、この方法は当社のテストでエラーが発生しやすいことが確認されています。
完成したモデル(3.5GB)はNMKDの開発者から直接ダウンロードすることをお勧めします。これは7z形式のアーカイブファイルであり、その中に含まれるstable_diffusion_onnxというフォルダを、NMKDのプログラムフォルダ内のサブディレクトリ「ModelsCheckpoints」にまとめて解凍する必要があります。これにより、ツールがモデルを見つけられるようになります。
右上の歯車アイコンをクリックし、設定ページの最初のフィールド「画像生成実装」をクリックします。ここでは、「安定拡散(ONNX – DirectML – AMDGPU用)」を選択する必要があります。その下、 「安定拡散モデル」フィールドの横に「リストを更新」ボタンがあります。これをクリックすると、その前の選択フィールドに「stable_diffusion_onnx」というエントリが表示されます。すべて選択したら、画像生成のメインウィンドウに戻ります。
プロンプトによる画像生成
NMKDは、表示される機能とパラメータが比較的分かりやすいままです。AI画像生成には、 「プロンプト設定」セクションの大きな入力フィールドを使用し、AIが結果のモチーフとして生成する画像を指定します。
その下には、完成した画像に表示すべきでないスタイル、モチーフの詳細、または色に関する条件が含まれる小さなフィールドがあります。
さらに、テキスト反転埋め込みを使用して、サンプル画像を含む説明を下に表示し、AI を望ましい方向に誘導することもできます。
重要だが計算時間に大きな影響を与えるのは、画像の詳細の細かさを高める「生成ステップ」スライダーです。
プロンプトガイダンスCFGスケールは、 AIが画像の説明にどれだけ忠実に従うべきかを指定します。画像の説明がより正確かつ詳細になるほど、この値は高くなります。
「解像度」の解像度は、作成時間に最も大きな影響を与えます。Nvidia Geforce RTX 4070のようなグラフィックカードは512×512ピクセルの画像を数秒で計算しますが、高解像度の場合は数分から数時間かかる場合があります。
より良い写真: 構文のヒント
NMKD Stable Diffusion GUI または Automatic 1111 を数回実験してみると、すぐに次のことがわかります。画像の説明は、簡潔すぎないように注意することが大切です。
結果が期待どおりであることを保証するためには、いわゆるプロンプトで画像を非常に正確かつ正確に記述する必要があります。理想的には、Stable Diffusion でより大規模なモデル データ セットにアクセスできる英語で記述する必要があります。
画像のスタイルを追加説明として指定することで、すぐに達成感を得ることができます。例えば、写真のような画像には「フォトリアリスティック」などです。アーティスト名も指定できます。例えば、私たちのリード画像では、ルネサンス絵画を模倣するために「ボッティチェリ風の絵画」と追加しました。
自動1111: ブラウザ経由のAI

透過的なインストール: Automatic 1111 は、コマンド プロンプト ウィンドウに実行内容を示すいくつかの Python および Powershell スクリプトの形式で Windows インストーラーとしても利用できます。
IDG
Windowsユーザーは、NMKDに加えて、Stable DiffusionのユーザーインターフェースとしてAutomatic 1111も使用できます。このプログラムには、Pythonとすべてのモジュールをワンアクションでインストールできる便利なインストーラーも用意されています。EXEファイルを呼び出した後、まずインストールファイルを指定のフォルダに解凍します。その後、A1111 (WebUI)をダブルクリックすると、開いたプロンプトでスクリプトによって実際のインストールが開始されます。インストールスクリプトは、モデルをダウンロードするかどうかも尋ねます。この場合、ダウンロードサイズが3.5GBにもなるため、インストールプロセスは長くなります。
NMKDとの類似点はここまでです。Automatic 1111は上級ユーザー向けのAI画像ジェネレーターです。インターフェースはブラウザ用のWebインターフェースで、ローカルコンピューターで使用する場合でも利用可能です。しかし、このアプローチの利点は、Stable DiffusionのフロントエンドをLAN内の他のコンピューター、例えばソファに座ったままノートパソコンやタブレットから操作できる点です。

別のアプローチ:Automatic 1111 はブラウザ経由で操作されます。これを行うには、このスターターは配信に含まれる Web サーバーを起動し、ローカルホスト上でそのアドレスを開きます。
IDG
リンク A1111 (WebUI) を呼び出すと、まず追加のオプションのスターターが表示されます。グラフィックカードのビデオ RAM が 8GB 未満の場合、ここで「Low VRAM」オプションを選択するとメモリ要件が軽減されます。Automatic 1111 を実行した同じ PC のブラウザーで、URL http://0.0.0.0:7860が開きます。外部からは、代わりにアドレス http://[IP アドレス]:7860 が呼び出しに使用されます。ここで、プレースホルダー「[IP アドレス]」は、コマンドプロンプトで ipconfig コマンドを実行したときに表示される、ネットワーク内のコンピューターの IPv4 番号に対応します。これは、Windows 検索で「cmd」と入力することで開きます。
さらに、ポート 7860 を Windows ファイアウォールの受信ポートとして許可する必要があります。これは、Windows セキュリティの[ファイアウォールとネットワーク保護] > [詳細設定] > [受信の規則] > [新しい規則] で設定します。
Automatic 1111 は、当初は NVIDIA グラフィックカードでのみ動作します。AMD グラフィックカードを使用している場合は、再度中間ステップを実行する必要があります。Automatic 1111 のすべてのインスタンスを閉じた後、コマンドプロンプトの新しいウィンドウを開き、次のコマンドを入力します。
git clone https://github.com/lshqqytiger/stable-diffusion-webui-directml && cd stablediffusion-webui-directml && git submodule init && git submodule update
その後、「stable-diffusion-webui-directml」サブディレクトリ内のバッチファイルwebuiuser.batをテキストエディタで修正する必要があります。「set COMMANDLINE_ARGS=」行に以下のコードを追加してください。
--opt-sub-quad-attention --lowvram --disable-nan-check --skip-torch-cuda-test
その後、webui-user.bat を呼び出すと Web インターフェイスが起動し、追加で必要なモジュールが事前にインストールされます。

上級ユーザー向けのオプションが多数: 微調整のためのオプションをさらに必要とする場合は、自動 1111 で見つけることができます。たとえば、「サンプリング方法」を使用して画像のスタイルに影響を与えることができます。
IDG
安定的な拡散:ライセンス条件
Stable Diffusion によって生成されたグラフィックは、ライセンスに基づき、様々な用途で使用できます。これは、Stable Diffusion の学習データと AI ソフトウェア自体が、私的利用だけでなく、商用利用も可能にしているためです。「Creative ML Open RAIL-M」ライセンスに基づき、商用利用も完全に許可されています。
しかし、これはオープンソースソフトウェアの意味での伝統的なフリーライセンスではありません。明確な制限事項があるからです。ライセンス文面によると、現地の法律に違反する目的での使用は許可されていません。また、他者を傷つける目的で虚偽の情報を作成することも許可されていません。差別的または不快なコンテンツの作成も禁止されています。Stable Diffusionで紹介されているプログラムによって生成されたグラフィックスは、医療アドバイス、プロファイリングによる法執行、法的アドバイスなどにも利用が禁止されています。
この記事はドイツ語から英語に翻訳され、元々はpcwelt.deに掲載されていました。
この記事はもともと当社の姉妹誌 PC-WELT に掲載され、ドイツ語から翻訳およびローカライズされました。