AIアートジェネレーターは、わずか数ヶ月で目新しいものからニッチなもの、そしてコモディティ化へと進化を遂げました。自然言語のテキストプロンプトを使って、AIアートを瞬時に生成できるサービスが数多く登場しています。最高のAIアートサービスは、素晴らしい画像と優れたツールを、無料または低価格で提供しています。
なぜAIアートを使うのでしょうか?私たちの多くは、自分で描けなくても素晴らしい絵画、写真、絵を鑑賞することができます。また、見たいものを説明することもできるかもしれません。そこでAIアートの出番です。説明に合うアート作品を探すのではなく、AIアートは画像データベースに描かれたシーンの知識と、ユーザーが指定したシーンやスタイルを比較することで、実際にアート作品を生成します。
しかし、その複雑さは膨大な計算リソースを必要とします。AIアートサービスでは、この問題に対処するために2つの方法を採用する傾向があります。生成する画像(画像数または解像度)を制限するか、追加のサブスクリプションを有効にするために「クレジット」または実際の料金を請求するかのいずれかです。私たちはこの点を考慮しています。
最後に、AIアートの法的および道徳的影響を無視することはできません。生成AIアートは膨大な数の画像(公開されているものもあれば、非公開のものもある)に基づいて学習され、これらのサービスはそれらを生成画像の「種」として利用しています。しかし、すべてのAIサービスが画像の出所について透明性を確保しているわけではありません。ゲッティイメージズのような企業は、これを違法と捉え、訴訟を起こしています。しかしながら、AIアートの真の独創性については議論があり、AI支持派は、人間のアーティストでさえ、公開・非公開を問わず、既存のアートに触れることで訓練を受けたり影響を受けたりすることが多いと指摘しています。ただし、AIアートを改変してオリジナル作品にしたという証拠がなければ、その作品を「所有」することはできないでしょう。
混乱していますか?AI アートを始める方法と、知っておきたい AI アートの専門用語(インペインティングなど)の詳細については、この記事の最後で詳しく説明します。
旅の途中
- 料金:無料トライアル(保留中)/月額$10/$30/$60
- 画像:無料トライアルのプロンプトが25回表示され、その後は変化します
- 画像ライセンス:無料トライアルでは非商用利用、それ以外は大企業を除き商用利用可
- NSFW/セレブ:いいえ/はい
昨年のローンチ以来、MidjourneyはAIアートの比類なきリーダーとして際立っています。しかし、その画像の素晴らしさは、皮肉にもインターフェースの極端にぎこちなさと対照的です。Midjourney v5(記事執筆時点での最新バージョン)は、ニュース記事を生成するような、ハイパーリアリスティックで偽の画像(例えば、厚手のジャケットを着た教皇の画像など)を生成します。今や「現実」は人工的に生成できるのです。
Midjourneyはインフラ投資を避けたいため、インターフェースとしてDiscordを使用しています。Discordにサインアップし、「初心者」向けのDiscordチャンネルに参加して/imagineコマンドを使用し、AIアートのリクエストを送信します。(Discordの入門ガイドはこちらです。)Midjourneyの基本プランは月額10ドルからで、さらに月額30ドルと60ドルのプランが用意されています。Midjourneyは無料トライアルを一時停止しています。アラカルトプランで時間を購入したり、よりゆっくりとした「リラックス」モードを利用したりする方法もあります。
各プロンプトは4枚の画像を生成します。いずれの画像も「バリエーション」として選択でき、拡大も可能です。インペインティングも可能です。画像はDiscordまたはブラウザで開いてダウンロードできます。Midjourneyによると、生成された画像は「ほぼあらゆる方法で」使用できるとのことで、利用規約に従って画像の所有権も保持されます。
繰り返しますが、Midjourneyの画像は素晴らしく、公開されているので、他のユーザーがリアルタイムで画像を生成する様子を見たり、過去の画像ギャラリーを閲覧したりできます。Midjourneyの魅力は、常に高品質な画像を提供してくれることです。しかし、使い方はPhotoshopのコマンドライン版に似ています。膨大な数の調整機能が用意されているにもかかわらず、その使い分けが全く分かりにくいのです。
Microsoft Bing チャット (クリエイティブ モード)
- 料金: Microsoftアカウントがあれば無料
- 画像:無制限に見える
- 画像ライセンス:不明
- NSFW/セレブ:なし/一部
通常、MicrosoftのAI画像生成ツールとしてはBing Image Creatorを特におすすめします。AI搭載のMicrosoft Designerも素晴らしいです。しかし奇妙なことに、Bing Chat(特にクリエイティブモード)をAIアート生成ツールとして高く評価する理由はただ一つ、「反復処理」にあります。
MicrosoftのAIアートサービス3つは、Microsoftアカウントを持ち、Bing ChatとImage Creatorの順番待ちリストを通過できれば、実質的に無料で、どうやら無制限に利用できるようです。(Image Creatorには奇妙な「ブースト」システムがあり、これが影響しているかどうかは定かではありませんが、Microsoftは生成できる画像の数に制限を設けていないようです。これは大きなセールスポイントです。)Microsoftは生成した画像を所有していると主張していませんが、ユーザーがそれらを所有しているとも主張していません。
そうでなければ、Bingチャットにアクセスして「…を描いて」のようなプロンプトに続けて画像の説明を入力するだけです。するとBingが数秒かけて1,024×1,024の画像を4枚生成します。クリックすると鮮明な画像が表示され、ダウンロードできます。Bingはビル・ゲイツやドナルド・トランプのような有名人は描けませんが、ブラッド・ピットなら問題なく描けるようです。
MicrosoftはDALL-E 2モデルの学習済みバージョンを使用しており、その結果は主観的にはMidjourneyよりわずかに劣る程度です。Bing Chatはインペインティングに対応していないようですが、他のAIアートジェネレーターではできない、シーンを段階的に反復処理する機能があります。つまり、「フルーツバスケットを描いて」と指示し、次の指示でシーンのディテールを調整するように指示するといったことが可能です。(ただし、シーン自体は編集されず、別の画像をダウンロードするだけです。)
しかし、Bing Chat は画像をアーカイブする機能がないようです。すぐに(笑)ダウンロードするか、Bing Image Creator にアクセスして、画像が隠れている場所を探す必要があります。
プレイグラウンドAI
- 料金:無料 / 月額 15 ドル
- 画像: 1日あたり1,000枚(無料)/ 1日あたり2,000枚(有料)
- 画像ライセンス:商用利用であっても、画像の所有権はあなたにあります
- NSFW/セレブ:いいえ/はい
シンプルさという点ではMicrosoft Bing Chatの方が勝っているかもしれませんが、Playground AIはAIアートを実際に試すための最も安価でシンプルでありながら、最も包括的な方法と言えるでしょう。Googleアカウントさえあれば、Playgroundに登録して1日1,000枚の画像を無料で利用できます。(1日50枚を超えると、画質やサイズに関する詳細は制限されます。)
PlaygroundのUIは非常に良く設計されており、左側のレールにはプロンプト情報とスタイルが表示され、右側のレールではサイズ、太さ、その他の微調整が可能です。生成される画像はBingやMidjourneyほど良くはありませんが、それでもわずかな差です。唯一の制限は利用可能なモデルです。Stable Diffusion 1.5と2.1のみで、多くの人にとって十分でしょう。(DALL-E 2へのアクセスには月額10ドルの追加料金がかかります。)有名人の画像を使って遊ぶこともできますが、NSFW画像は禁止されています。
Playgroundが真価を発揮するのは編集機能です。Bingと同様に、作成した画像を追加のプロンプトを使って編集できます。画像全体を編集することも、一部だけを編集することもできます(インペインティング)。Playgroundではこれを「キャンバス」と呼んでいますが、まだベータ版の機能で、改善の余地があります。作成から編集(プロンプト経由)、そして編集(インペインティングとアウトペインティング経由)への移行が、必要以上に粗雑です。しかし、それ以外は、このサービスは非常に優れています。

マーク・ハッハマン / IDG
アドビ ファイアフライ
- 費用:未定
- 画像:少なくともベータ版では無制限
- 画像ライセンス:ベータ版では非商用利用のみ
- NSFW/セレブ:いいえ/いいえ
現時点では、AdobeがFireflyの最終的な価格設定や、スタンドアロン製品になるかどうかは不明です。少なくとも、FireflyエンジンはPhotoshopやその他のAdobeツールに搭載されると思われます。ベータ版では、テキストから画像を生成するジェネレーティブアート、テキストエフェクト、AI生成テクスチャをプロンプト経由でテキストに適用する機能が無制限に提供されています。Adobeはまた、インペインティング、アウトペインティング、3Dモデルから画像への変換、パーソナライズされたAIモデル、スケッチから画像への変換などを「検討中」としています。
Adobeのモデルは、他のものほど創造性に富んでいるようには見えませんが、洗練されたプロフェッショナルな見た目でそれを補っています。各プロンプトで4枚の画像が生成され、コンテンツの種類(写真、グラフィック、アート)、スタイル(レイヤードペーパー、ファー、ネオン、パレットナイフ)、色、トーン、照明など、分かりやすいスタイル調整で調整できます。画像フォーマットを調整すると、画像も変化します。ただし、NSFW(職場閲覧禁止)や有名人が写っているものは避けてください。
Adobe Fireflyは、現実世界やストック画像と何らかの繋がりのある画像で特に効果を発揮するようです。奇妙な繋がり(例えば、王の頭の周りを飛び回るハエなど)によって、シーンの一部を切り取ったような素晴らしい映像が生まれます。プロならきっと気に入るFireflyですが、高額なCreative Cloudサブスクリプションでしか利用できないことは間違いありません。
安定拡散
- 料金:無料
- 画像:無制限
- 画像ライセンス:不明
- NSFW/セレブ:はい/はい
クラウドベースのAIアートサービスとは異なり、Stable Diffusionの最大のセールスポイントは、サーバーではなくローカルPC上で実行できることです。Midjourneyでビキニ姿のエルフたちがゼリーのプールで戯れる画像を何十枚も作成すれば、世界中に公開されてしまいます。そうでなければ、高性能なゲーミングノートPCやデスクトップPCをお持ちであれば、Stable Diffusionのコードと様々な画像モデル、そしてトレーニングデータをダウンロードして、PCのプライバシーを思う存分活用できます。しかも、数ギガバイトのソフトウェアモデルをダウンロードする時間、それを実行するためのハードウェアリソース、そしてセットアップに費やす忍耐力さえあれば、すべて無料です。
Stable Diffusion は、Linux の実行に少し似ています。コマンドラインがレガシーであり、GitHub などに公開されているコードが大量に存在するので、もし興味があれば自由に触ることができます。しかし、UI 駆動型の Stable Diffusion 実装はますます普及しており、現時点で最も人気があるのは AUTOMATIC1111 のようです。
当然のことながら、ハードウェアが高性能であればあるほど良いのですが、重要なのはCPUやGPUだけではありません。むしろ、GPUのVRAM容量が鍵となるようです。Stable DiffusionをCPUや下位グレードのGPUに有利に調整するためのモデルやトグル、その他のオプションがありますが、Stable Diffusionを実行する最も簡単な方法は、高性能なPCを使うことです。
ステーブル・ホード(アートボット)
- 料金:無料
- 画像:無制限(ただし待ち時間あり)
- 画像ライセンス:不明
- NSFW/セレブ:はい/はい
では、Stable Diffusion を実行できるほど高性能な PC をお持ちでない場合はどうなるでしょうか?Stable Horde がその答えの一つです。旧式の(現在は廃止された)SETI@Home と同様に、Stable Diffusion を実行している接続された PC のクラスターにプロンプトを送信するだけです。フロントエンドインターフェースはいくつかありますが、Artbot を利用しています。
Stable Diffusionのルーツとは異なり、Artbotはある程度操作しやすいGUIを採用しています。上部にプロンプトがあり、その下に多数のオプションとモデルが並んでいます。Artbotは、これらのオプションの機能(プロンプトの重み付けによる影響、否定的なプロンプトなど)を説明する便利なツールチップを提供しています。プロンプトのフレームワークとして使用できる様々なモデルのリストも用意されており、出力のスタイルにどのような影響を与えるかを視覚的に確認できます。設定の自由度は驚くほど高いです。
ただし、Stable Hordeは完全に無料ではありません。「kudos」システムを採用しており、APIキーを使ってサインアップする必要があります。これは、慣れていないユーザーにとってはハードルが高いでしょう。サインアップ後は、一定量のkudosが貯まり、生成する画像ごとに減っていきます。画像が複雑であればあるほど、消費するkudosも多くなります。kudosが少ないほど、他のユーザーと同じ順番でキューの後ろの方に配置されます。これは必ずしも問題ではありません。30台ほどのPCが連携して画像を生成しているため、画像がすぐに生成されることもあります。(画像はCookieを消去するまで、サイト上のライブラリに保存されます。)
ただし、画像に評価を付けたり、人間(つまりあなた)が好む画像でモデルをトレーニングしたり、PCをHorde自体に接続したりすることで、Kudosを「購入」することは可能です。頻繁に画像を生成することで「借金」を負う可能性はありますが、Kudosの「残高」がなければ実行できないアクションがいくつかあります。

アートボット
Artbotを使う理由は何でしょうか?それは、膨大な数のAIモデルと、それらの画像が生み出すスタイルの多様性です。Artbotで画像を生成するのは、少々運任せで、あらゆるオプションを調べるだけで膨大な量のKudosを消費してしまう可能性があります。APIキーを見つける以外に特別な設定は不要なので、Stable Horde (Artbot) を試してみる価値はあるでしょう。
準優勝:DALL-E、Mage.Space、Getimg.ai、DreamStudio AI
目立っているが、私たちのリストには入っていない 4 つの AI アート サービス、OpenAI 独自の Dall-E、Mage.Space、DreamStudio、Getimg.ai です。
先日DALL-Eについて記事を書きましたが、写真風アート生成技術の中には優れたものもありました。ただ、OpenAIはあまり真剣に取り組んでいないように感じますし、価格設定(115枚の画像で15ドル)も納得できません。Bing Chatの無料画像もDALL-Eで学習されています。
Mage.SpaceはNSFW的な雰囲気で有名でしたが、最近になってその雰囲気は完全に撤廃されました。しかし、サイトが「完全無制限」と称する画像は無料で引き続き利用可能です。(NSFW生成は月額4ドルかかります。これはクレジットカードが身分証明書として使用できる場合があるためです。)このサイトには40種類以上の非常に洗練された生成モデルが掲載されているようですが、それらは月額15ドルのProプランでのみ利用可能です。

マーク・ハッハマン / IDG
Getimg.aiは、画像生成に使用できる優れたモデルの種類が豊富で、プロンプトベースの編集機能に加え、自分の写真でモデルをトレーニングできるDreamBoothも提供しています。Getimg.aiは、画像間生成にControlNetを実装しています。これは、画像間生成において元の画像の特徴(ポーズなど)を特に維持するアルゴリズムです。無料画像が毎月100枚という制限は少し物足りないように感じますが、月額12ドルのサブスクリプションに加入すれば、毎月3,000枚の画像、アップスケーリング、そして画像モデルへのアクセスが得られます。
DreamStudio AI(試用クレジットを提供してくれた)をかなり使ってきましたが、今のところ機能が制限されすぎているように感じます(しかもまだベータ版?)。10ドルの定額料金で5,000枚の画像に十分なクレジットが手に入りますが、モデルの種類は限られており、編集機能はないし、画像も目立たないです。
さまざまな理由から、Deep Dream Generator、Starry.ai、NightCafe、Craiyon は広告の海と化しており、除外しました。
AIアートの始め方:基本
AIアートを試してみたい方は、無料でAIアートを試せるサイトがたくさんあることを覚えておいてください。ぜひ試してみてください。ただし、多くのサイトではユーザー名とパスワードの設定すらできないため、Googleアカウントがデフォルトで必須となっているようです。
AIアート生成で最初から完璧に仕上がるものはほとんどありません。Midjourneyのようなサイトは、新規ユーザーを支援してくれます。ごく基本的な説明だけで素晴らしい結果が得られます。
しかし、他の趣味と同じように、AIアートにも独自のオタクが存在します。一部のサイトでは「プロンプトエンジニアリング」、つまりテキストプロンプトをカスタマイズして最適な結果を得る方法に言及し、チュートリアルまで提供しています。他のサイトでは、スタイルとモデルのシンプルなビジュアルリストを提供し、そこから選択するだけで適切なテキストがプロンプト自体に追加されます。(シンセウェーブとサイバーパンクの違いを理解するのに役立ちます!)残念ながら、これらの追加モデルを有料で提供しているサイトもあります。
何を創作すればいいのか分からなくなってしまったら、現実世界を少しアレンジしてみましょう。ブルックリン橋にとまるドラゴン。バーの端に立つ可愛いケンタウロス。お気に入りのアーティストや写真家のスタイルでシーンをキャスティングすれば、さらに楽しくなります。言葉もフレーズも重要です!「スケートボードをしながら」のようなフレーズは誤解される可能性がありますが、「スケートボードに乗っている」はそうではないかもしれません。

マーク・ハッハマン / IDG
多くの場合、一度に複数の画像を生成できますが、クレジットやサイトが生成回数を制限するために使用する料金が発生することがあります。画像サイズが大きいほど、より多くのクレジットが必要になることが多いですが、これはサービスによって異なります。
プロンプトの例を考えてみます。「リスの写真/漫画/木版画/マリリン・モンロー/ゴッホ風の妖精/アンセル・アダムス/サルバドール・ダリ」の中から1つを選び、それぞれ1つ選びます。そして、思いつく限りの修飾語を加えます。例えば、木の枝越しに眺めた風景ですか?望遠レンズを装着したキヤノンのデジタル一眼レフカメラで撮影しましたか?AIは想像以上に様々な要素に対応できます。
まあ、ほぼ全てです。AIアートにも弱点が一つあります。それは手と指です。なぜでしょうか?理由は分かりませんが、あまりにも一般的な弱点なので、ほぼミーム化しています!利用規約によっては、NSFW(職場閲覧注意)画像を許可するものもあれば、許可しないものもあります。人々が想像できるあらゆる恐ろしいことを考えると、これは当然のことです。元大統領のような有名人の肖像を許可するかどうかは気にしないという人もいます。
PhotoshopやLightroomの熟練者でも写真編集に時間がかかるのと同じように、あなたにも時間がかかります。完璧な仕上がりにするには、数十回の試行錯誤が必要になるかもしれません。だからこそ、複数のプロンプトが使えるサイトでAIアートを安価に試してみて、その価値を確かめてみる価値があるのです。複数のサイトを試してみるのも良いでしょう。インペインティングやアウトペインティングなどの追加編集ツールを使えば、エラーを修正できます。
そう、インペインティングです。意味が分からないですか?つい最近まで、私たちもそうでした。AIアートの定義を補足するために、下記に用語集をご用意しました。
- プロンプト:画像が表す内容を説明する、シンプル(または複雑!)なテキスト説明。これはプロンプトの重み(下記参照)の影響を受けます。
- txt2img (テキストから画像へ) : これは基本的に、AI アートの観点から私たちが考えているものです。つまり、テキスト プロンプトを入力して画像を生成します。
- 否定的なプロンプト:最終画像に表示したくないもの。
- img2img: (image to image ): シーンを一から生成する代わりに、画像をアップロードして、それを出力画像のインスピレーションとして利用できます。愛犬を王様に変身させたいですか?愛犬の写真をアップロードして、AIアート生成をシーンに適用しましょう。
- モデル: AIは様々な生成モデルを使用します(Stable Diffusion 1.5または2.1が最も一般的ですが、DALL-E 2やMidjourneyのカスタムモデルなど、他にも多くのモデルがあります)。各モデルはシーンに独自の「見た目」をもたらします。いろいろ試してみて、何がうまくいくか見てみましょう!
- プロンプトの重み:モデルと画像がプロンプトにどれだけ忠実であるか。これは、プロンプトの重み付けが可能なサイトで調整したい変数の一つです。簡単に言うと、プロンプトの重み付けが強すぎるとAIアルゴリズムの創造性があまり発揮されませんが、弱すぎると発揮されます。
- サンプラー:おそらく心配する必要はありませんが、サンプラーの種類によって画像の見た目も異なります。
- ステップ数: AIアートジェネレーターが画像を生成するために実行する反復処理の回数。一般的に、この回数によって出力結果の品質が向上します。多くのサービスでこの数値を調整できますが、一般的に50ステップを超えると改善効果は減少すると言われています。あるユーザーが、ステップ数とサンプル数が結果画像にどのような影響を与えるかを視覚的に比較した画像をアップロードしました。
- 顔の修正:一部のサイトでは、GFPGAN などのアルゴリズムを使用して顔を「修正」する機能が提供されており、これにより肖像画をよりリアルに見せることができます。
- ControlNet:新しいアルゴリズムですが、あまり広く利用されていません。ControlNetは画像から画像への生成に特化しており、元の画像の特徴を「ロック」して変更できないようにします。例えば、黒猫の画像があり、それを三毛猫に変えたい場合、ControlNetを使えば元のポーズを維持し、色を変えるだけで済みます。
- アップスケーリング:デフォルトの画像は通常、1,024×1,024の小さな正方形の画像ですが、必ずしもそうとは限りません。アップスケーリングは多くの場合、時間とコンピューターリソースの面で「コスト」がかかりますが、ソーシャルメディアで友達に見せるだけでなく、他の用途にも使える「大きな」画像を作成する方法の一つです。
- インペインティング:これは画像編集の中でもかなり興味深い手法です。インペインティングは基本的にPhotoshopにAIを加えたようなものです。画像から特定の領域をハイライトし、AIを使ってその領域を修正できます。(ハイライト部分以外の部分を編集することも可能です。)父親の写真をアップロードし、髪の毛の部分を「インペインティング」し、AIを使って王冠やピエロのかつらを追加するところを想像してみてください。
- アウトペインティング:これはAIを使ってシーンの境界を拡張する機能です。イタリアのビーチで撮影した小さな写真があると想像してみてください。アウトペインティングを使えば、ショットを「拡張」し、(AIが生成した)ビーチ、例えば数羽の鳥や遠くの建物などを追加することができます。普段は思いつかないような機能です!
AIアートは、機械生成のAIアートと、おそらくは不公平にも競争しなければならない世代のアーティストにとって、恐ろしい存在となり得る。(作家がChatGPT、Bing、Google BardといったAIチャットボットをテストする様子を想像してみてほしい!)
しかし、私たちはAIアートを独自の創造性の表現手段と捉え、皆さんが自分自身の作品について考え、創作することを奨励しています。レストランで食べ物を買うこともできますし、レシピに従って自分で材料を組み合わせることもできます。それぞれに役割があります。より多くの人々が創作プロセスに参加できるように促すこと、それがAIアートの真髄です。