先週、OpenAIは新しいo3およびo4-mini推論モデルをリリースしました。これらのモデルは、従来のo1およびo3-miniよりも大幅に優れたパフォーマンスを発揮し、「画像で考える」機能や、より複雑な結果を得るためにAIツールをエージェント的に組み合わせる機能などの新機能を備えています。
しかし、OpenAIの内部テストによると、これらの新しいo3およびo4-mini推論モデルは、以前のAIモデルと比較して幻覚の頻度が大幅に増加しているとTechCrunchは報じています。これは異例なことで、基盤となるAI技術の向上に伴い、新しいモデルは幻覚の頻度が低くなる傾向があります。
LLM(法則モデル)や推論AIの分野では、「幻覚」はモデルが説得力があるように聞こえるが、実際には全く関係のない情報を捏造するときに発生します。つまり、ChatGPTに質問をすると、明らかに誤った、あるいは不正確な答えが返ってくる可能性があるのです。
OpenAIの社内ベンチマークであるPersonQA(人物に関するAIモデルの事実的正確性を測定するために使用されている)では、o3は回答の33%で幻覚を呈したのに対し、o4-miniはさらに悪く48%でした。比較すると、旧モデルのo1とo3-miniはそれぞれ16%と14.8%で幻覚を呈しました。
OpenAIは現時点で、新しい推論モデルで幻覚が増加した理由は不明だと述べています。幻覚は創造的な取り組みには問題ないかもしれませんが、正確性が最優先されるタスクに使用する場合、ChatGPTのようなAIアシスタントの信頼性を損ないます。OpenAIの担当者はTechCrunchへの声明で、「(自社モデルの)精度と信頼性の向上に継続的に取り組んでいる」と述べています。
この記事はもともと当社の姉妹誌 PC för Alla に掲載され、スウェーデン語から翻訳およびローカライズされました。