AIチャットボットをノートパソコンでローカルに実行してみたが、あまりうまくいかなかった

Intelligenz のチャットボット

画像: Owlie Productions / Shutterstock.com

1月にDeepSeek-R1がリリースされた際、大きな話題を呼びました。この推論モデルは、コンシューマーグレードのラップトップ上で、より小規模な大規模言語モデル（LLM）で動作するように簡素化できると報じられました。もし見出しを信じるなら、ChatGPTに匹敵するAIモデルをトースターで実行できるようになったと思うかもしれません。

でも、それは真実ではありません。一般的なWindowsラップトップでLLMをローカルで実行してみましたが、全体的な使い勝手はやはりいまいちでした。まだいくつか問題が残っています。

問題1：小規模なLLMは愚かだ

新しいオープン LLM は、ベンチマークの大幅な向上を誇ることがよくありますが、DeepSeek-R1 もまさにその通りで、いくつかのベンチマークでは OpenAI の o1 に近づきました。

しかし、Windows ノートパソコンで実行しているモデルは、高得点を獲得しているモデルとは異なります。これははるかに小さく、より凝縮されたモデルであり、大規模な言語モデルの縮小版はそれほど賢くありません。

DeepSeek-R1-Llama-8B に鶏がどうやって道路を渡ったのか尋ねたところ、何が起こったか見てみましょう。

DeepSeek ニワトリはどうやって道路を渡ったのかというプロンプトのスクリーンショット

マット・スミス / ファウンドリー

このシンプルな質問と、法学修士（LLM）の支離滅裂な回答は、小規模なモデルがいかに容易に軌道から外れてしまうかを示しています。多くの場合、文脈に気づかなかったり、一見明白に見えるニュアンスを捉え損ねたりするのです。

実際、最近の研究では、推論機能を持つ知能の低い大規模言語モデルは、このような欠陥に陥りやすいことが示唆されています。私は最近、AI推論モデルにおける過剰な思考の問題と、それが計算コストの増加にどのようにつながるかについて記事を書きました。

鶏の例はちょっとおかしな例だとは思いますが、もっと実践的な課題に挑戦してみませんか？例えば、HTMLで簡単なウェブサイトをコーディングする、といった具合です。AnthropicのClaude 3.7 Sonnetを使って架空の履歴書を作成し、Qwen2.5-7B-Instructにその履歴書に基づいたHTMLウェブサイトを作成させました。

結果は決して良いものではありませんでした。

マット・スミス / ファウンドリー

公平に言えば、インターネット接続のないパソコンの前に座らされて、同じようなウェブサイトをコーディングしろと言われたとしても、私の作ったものよりはましです。とはいえ、ほとんどの人は、この履歴書をオンラインで自己紹介に使いたいとは思わないでしょう。

AnthropicのClaude 3.7 Sonnetのような、より大規模でスマートなモデルを使えば、より高品質なウェブサイトを生成できます。それでも批判はできますが、私の批判はより微妙なものであり、目立った欠陥とは関係ありません。Qwenの成果とは異なり、Claudeが作成したウェブサイトをオンラインで自己表現するために利用すれば、多くの人が満足するだろうと期待しています。

私にとって、それは憶測ではありません。実際に起こったことです。数ヶ月前、私はWordPressをやめて、Claude 3.5 SonnetがコーディングしたシンプルなHTMLウェブサイトに切り替えました。

問題2: ローカルLLMは大量のRAMを必要とする

OpenAIのCEO、サム・アルトマン氏は、AIの発展を維持するために必要な膨大なデータセンターとインフラへの投資について、常に騒ぎ立てている。もちろん彼には偏った見方もあるだろうが、一つだけ正しいことがある。GPT-4のような最大規模かつ最も賢い大規模言語モデルには、最高級のコンシューマー向けPCさえもはるかに凌駕する演算能力とメモリを備えたデータセンターハードウェアが必要だということだ。

これは、最高の大規模言語モデルに限った話ではありません。より小規模で低性能なモデルであっても、最新のWindowsラップトップの性能を限界まで押し上げる可能性があり、RAMがパフォーマンスの最大の制約となることがよくあります。

Windows タスクマネージャーでローカル LLM が読み込まれたときの RAM の増加のスクリーンショット

マット・スミス / ファウンドリー

大規模言語モデルの「サイズ」は、そのパラメータによって測定されます。各パラメータは、モデルが出力を生成するために使用する個別の変数です。一般的に、パラメータの数が多いほど出力は賢くなりますが、それらのパラメータはどこかに保存する必要があるため、モデルにパラメータを追加すると、必要なストレージとメモリが増加します。

70億～80億のパラメータを持つ小規模なLLMは、4.5～5GB程度になる傾向があります。これはそれほど大きなサイズではありませんが、モデル全体をメモリ（つまりRAM）にロードし、モデルが使用されている間はそこに保持する必要があります。単一のソフトウェアのためにこれだけのRAMを確保するのは、かなりの量です。

70億パラメータのAIモデルを16GBのRAMを搭載したノートパソコンで実行することは技術的には可能ですが、現実的には32GBのRAMが必要になります（LLM以外のソフトウェアを起動していない場合）。私がローカルLLMのテストに使用しているSurface Laptop 7は32GBのRAMを搭載していますが、AIモデルがアクティブな状態で動画編集アプリやブラウザのタブを数十個開いていると、メモリ不足に陥ることがあります。

問題3: ローカルLLMが非常に遅い

WindowsラップトップにRAMを増設するのは、問題2の簡単な（ただし高価な）解決策のように思えるかもしれません。しかし、そうすると別の問題に直面することになります。最新のWindowsラップトップは、LLMに必要なコンピューティング性能が不足しているのです。

この問題は、HP Elitebook X G1aで発生しました。これは、高性能な統合型グラフィックスと統合型ニューラルプロセッシングユニットを備えたAMD Ryzen AIプロセッサを搭載した高速ノートパソコンです。また、64GBのRAMを搭載しているため、700億個のパラメータ（約40GBのメモリを消費します）を持つLlama 3.3を読み込むことができました。

LM Studio の HTML トークン生成速度が遅いスクリーンショット — 架空の履歴書のHTML生成には、最初のトークン生成に66.61秒、残りのトークン生成にさらに196.7秒かかりました。これは、例えばChatGPTと比べて大幅に遅いです。

マット・スミス / ファウンドリー

しかし、これだけのメモリを搭載しても、Llama 3.3-70Bはまだ使い物になりませんでした。確かに、技術的には読み込みは可能でしたが、1秒あたり1.68トークンしか出力できませんでした。（テキスト返信では1単語あたり1～3トークン必要となるため、短い返信でも生成に1分以上かかることがあります。）

より強力なハードウェアは確かに役立つかもしれませんが、単純な解決策ではありません。現在、あらゆるハードウェアであらゆるLLMを実行できる汎用APIは存在しないため、ラップトップで利用可能なすべてのコンピューティングリソースを適切に活用することは多くの場合不可能です。

問題4：LM Studio、Ollama、GPT4AllはChatGPTに匹敵しない

これまで私が不満を述べてきたことはすべて、理論的には、LLMがラップトップのコンピューティングリソースをより簡単に利用できるハードウェアとAPIによって改善できるはずです。しかし、たとえそれがすべて実現したとしても、直感的でないソフトウェアとの格闘は依然として避けられません。

ここで言うソフトウェアとは、これらのLLMと通信するためのインターフェースのことです。LM Studio、Ollama、GPT4Allなど、多くの選択肢があります。これらは無料で、優れた機能を備えています（GPT4Allは驚くほど簡単です）。しかし、ChatGPT、Anthropic、その他の大手LLMほど機能が豊富で使いやすいわけではありません。

LM Studio AIモデルのサイズ比較（DeepSeek V3を選択） — LM Studio を使用してローカル LLM を管理および選択するのは、ChatGPT、Copilot、Claude などの主流の AI チャットボットを読み込むよりもはるかに直感的ではありません。

マット・スミス / ファウンドリー

さらに、ローカルLLMはマルチモーダル化されにくいため、画像や音声を扱うことができません。ほとんどのLLMインターフェースは、ドキュメントと「対話」できるように何らかのRAGをサポートしていますが、コンテキストウィンドウは小さく、ドキュメントのサポートも限られていることが多いです。また、ローカルLLMには、OpenAIのAdvanced Voice ModeやClaude's Artifactsといった、オンライン専用の大規模LLMが備えているような最先端機能がありません。

地元のLLMソフトウェアを批判するつもりはありません。有力な選択肢は確かに優れており、しかも無料です。しかし、正直なところ、フリーソフトウェアが裕福なIT大手に追いつくのは難しいというのが現実です。そして、それは明らかです。

解決策は見えてきているが、それが実現するまでには長い時間がかかるだろう

最大の問題は、現時点では上記の問題を解決する方法がないことです。

RAMはしばらく問題になりそうです。この記事の執筆時点では、最も高性能なWindowsノートパソコンのRAMは128GBが上限です。一方、Appleは最大512GBの統合メモリを搭載できるM3 Ultraをリリースしました（ただし、入手には少なくとも9,499ドルかかります）。

コンピューティング性能にもボトルネックがあります。RTX 4090（まもなくRTX 5090に置き換えられる予定）を搭載したノートPCは、LLMを実行するのに最適な選択肢のように見えるかもしれません（実際そうかもしれません）。しかし、LLMをGPUのメモリにロードする必要があります。RTX 5090は24GBのGDDR7メモリを搭載しますが、これは比較的大容量ですが、それでも限界があり、最大約320億パラメータ（QwQ 32Bなど）までのAIモデルしかサポートできません。

ハードウェアの制限を無視したとしても、ローカルでホストされるLLMを実行するためのソフトウェアがクラウドベースのサブスクリプションサービスに追いつくかどうかは不明です。（ローカルLLMを実行するための有料ソフトウェアは存在しますが、私の知る限り、エンタープライズ市場に限られています。）ローカルLLMがクラウドベースのLLMに追いつくには、使いやすく、クラウドサービスに近い機能を備え、頻繁にアップデートされるソフトウェアが必要です。

これらの問題はおそらく時間の経過とともに解決されるでしょう。しかし、もし今すぐにラップトップでローカルLLMを試してみようと考えているなら、諦めた方がいいでしょう。楽しくて斬新ですが、生産的とは程遠いです。今のところは、GPT-4.5やClaude 3.7 Sonnetのようなオンライン専用のモデルを使い続けることをお勧めします。

さらに読む: ChatGPT Proに月額200ドル支払ったので、あなたは払う必要はありません

著者: マシュー・S・スミス、PCWorld寄稿者

マシュー・S・スミスは、15年間にわたり家電製品のレビューに携わってきたフリーランスのテクノロジージャーナリストです。PCWorldに加え、Wired、Ars Technica、Digital Trends、Reviewed、IGN、Lifewireにも寄稿しています。また、IEEE SpectrumではAIとメタバースに関する記事を執筆し、PCゲームの歴史に特化したYouTubeチャンネル「Computer Gaming Yesterday」を運営しています。